Cyfroteka.pl

klikaj i czytaj online

Cyfro
Czytomierz
00381 005564 13259222 na godz. na dobę w sumie
Analiza danych w biznesie. Sztuka podejmowania skutecznych decyzji - książka
Analiza danych w biznesie. Sztuka podejmowania skutecznych decyzji - książka
Autor: , Liczba stron: 360
Wydawca: Onepress Język publikacji: polski
ISBN: 978-83-246-9610-9 Data wydania:
Lektor:
Kategoria: ebooki >> poradniki >> controlling
Porównaj ceny (książka, ebook, audiobook).

Wszystko co powinieneś wiedzieć o eksploracji danych i myśleniu w kategoriach analityki danych. Wyciągaj trafne wnioski!
 

„Lektura obowiązkowa dla każdego, kto poważnie myśli o wykorzystaniu okazji, jakie niosą ze sobą wielkie zbiory danych”.

— Craig Vaughan, globalny wiceprezes SAP

Posiadanie zbiorów danych to połowa sukcesu. Druga połowa to umiejętność ich skutecznej analizy i wyciągania wniosków. Dopiero na tej podstawie będziesz w stanie właściwie ocenić kondycję Twojej firmy oraz podjąć słuszne decyzje. Wiedza zawarta w tej książce może zadecydować o sukcesie biznesowym lub porażce. Nie ryzykuj i sięgnij po to doskonałe źródło wiedzy, poświęcone nauce o danych.

To unikalny podręcznik, który pomoże Ci sprawnie opanować nawet najtrudniejsze zagadnienia związane z analizą danych. Dowiedz się, jak zbudowany jest proces eksploracji danych, z jakich narzędzi możesz skorzystać oraz jak stworzyć model predykcyjny i dopasować go do danych. W kolejnych rozdziałach przeczytasz o tym, czym grozi nadmierne dopasowanie modelu i jak go unikać oraz jak wyciągać wnioski metodą najbliższych sąsiadów. Na koniec zaznajomisz się z możliwościami wizualizacji skuteczności modelu oraz odkryjesz związek pomiędzy nauką o danych a strategią biznesową. To obowiązkowa lektura dla wszystkich osób chcących podejmować świadome decyzje na podstawie posiadanych danych!

Dzięki tej książce:

Przeanalizuj posiadane dane i podejmij trafne decyzje!

 

Ta książka wykracza poza sferę podstaw analityki danych. To niezbędny przewodnik dla tych z nas (nas wszystkich?), których firmy zostały zbudowane w oparciu o wszechobecność okazji biznesowych, wiążących się z danymi, i nowe możliwości podejmowania decyzji w oparciu o dane.

— Tom Phillips, prezes Distillery i były szef Google Search i Google Analytics

Znajdź podobne książki Ostatnio czytane w tej kategorii

Darmowy fragment publikacji:

Tytuł oryginału: Data Science for Business Tłumaczenie: Leszek Sielicki ISBN: 978-83-246-9610-9 © 2014 Helion S.A. Authorized Polish translation of the English edition Data Science for Business ISBN 9781449361327 © 2013 Foster Provost and Tom Fawcett This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all rights to publish and sell the same. Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną, fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje naruszenie praw autorskich niniejszej publikacji. Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich właścicieli. Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne i rzetelne. Nie bierze jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym ewentualne naruszenie praw patentowych lub autorskich. Wydawnictwo HELION nie ponosi również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce. Wydawnictwo HELION ul. Kościuszki 1c, 44-100 GLIWICE tel. 32 231 22 19, 32 230 98 63 e-mail: helion@helion.pl WWW: http://helion.pl (księgarnia internetowa, katalog książek) Drogi Czytelniku! Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres http://helion.pl/user/opinie/andabi Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję. Printed in Poland. • Kup książkę • Poleć książkę • Oceń książkę • Księgarnia internetowa • Lubię to! » Nasza społeczność Spis tre(cid:316)ci Przedmowa ..............................................................................................................................17 1. 2. Wst(cid:253)p: my(cid:316)lenie w kategoriach analityki danych .....................................................25 25 Wszechobecno(cid:264)(cid:232) mo(cid:276)liwo(cid:264)ci pozyskiwania danych Przyk(cid:228)ad: huragan Frances 27 27 Przyk(cid:228)ad: prognozowanie odp(cid:228)ywu klientów 28 Nauka o danych, in(cid:276)ynieria i podejmowanie decyzji na podstawie danych Przetwarzanie danych i Big Data 31 32 Od Big Data 1.0 do Big Data 2.0 32 Dane i potencja(cid:228) nauki o danych jako aktywa strategiczne 35 My(cid:264)lenie w kategoriach analityki danych Nasza ksi(cid:241)(cid:276)ka 37 37 Eksploracja danych i nauka o danych, nowe spojrzenie 38 Chemia to nie probówki: nauka o danych kontra praca badacza danych Podsumowanie 39 Problemy biznesowe a rozwi(cid:233)zania z zakresu nauki o danych ................................ 41 Podstawowe poj(cid:246)cia: Zbiór kanonicznych zada(cid:254) zwi(cid:241)zanych z eksploracj(cid:241) danych; Proces eksploracji danych; Nadzorowana i nienadzorowana eksploracja danych. Od problemów biznesowych do zada(cid:254) eksploracji danych Metody nadzorowane i nienadzorowane Eksploracja danych i jej wyniki Proces eksploracji danych Zrozumienie uwarunkowa(cid:254) biznesowych Zrozumienie danych Przygotowanie danych Modelowanie Ewaluacja Wdro(cid:276)enie Implikacje w sferze zarz(cid:241)dzania zespo(cid:228)em nauki o danych 41 45 47 47 49 49 51 52 52 53 55 9 Kup książkęPoleć książkę Inne techniki i technologie analityczne Statystyka Zapytania do baz danych Magazynowanie danych Analiza regresji Uczenie maszynowe i eksploracja danych Odpowiadanie na pytania biznesowe z wykorzystaniem tych technik Podsumowanie 56 56 58 59 59 60 61 62 Wprowadzenie do modelowania predykcyjnego: od korelacji do nadzorowanej segmentacji ................................................................63 Podstawowe poj(cid:246)cia: Identyfikowanie atrybutów informatywnych; Segmentowanie danych za pomoc(cid:241) progresywnej selekcji atrybutów. Przyk(cid:228)adowe techniki: Wyszukiwanie korelacji; Wybór atrybutów/zmiennych; Indukcja drzew decyzyjnych. Modele, indukcja i predykcja Nadzorowana segmentacja Wybór atrybutów informatywnych Przyk(cid:228)ad: wybór atrybutu z wykorzystaniem przyrostu informacji Nadzorowana segmentacja z u(cid:276)yciem modeli o strukturze drzewa Wizualizacja segmentacji Drzewa jako zbiory regu(cid:228) Szacowanie prawdopodobie(cid:254)stwa Przyk(cid:228)ad: rozwi(cid:241)zywanie problemu odp(cid:228)ywu abonentów z wykorzystaniem indukcji drzewa Podsumowanie 3. 4. 64 67 68 74 79 83 86 86 88 92 96 97 100 101 102 103 106 108 111 113 117 119 Dopasowywanie modelu do danych ..........................................................................95 Podstawowe poj(cid:246)cia: Znajdowanie „optymalnych” parametrów modelu na podstawie danych; Wybieranie celu eksploracji danych; Funkcje celu; Funkcje straty. Przyk(cid:228)adowe techniki: Regresja liniowa; Regresja logistyczna; Maszyny wektorów wspieraj(cid:241)cych. Klasyfikacja za pomoc(cid:241) funkcji matematycznych Liniowe funkcje dyskryminacyjne Optymalizacja funkcji celu Przyk(cid:228)ad wydobywania dyskryminatora liniowego z danych Liniowe funkcje dyskryminacyjne do celów scoringu i szeregowania wyst(cid:241)pie(cid:254) Maszyny wektorów wspieraj(cid:241)cych w skrócie Regresja za pomoc(cid:241) funkcji matematycznych Szacowanie prawdopodobie(cid:254)stwa klas i „regresja” logistyczna * Regresja logistyczna: kilka szczegó(cid:228)ów technicznych Przyk(cid:228)ad: indukcja drzew decyzyjnych a regresja logistyczna Funkcje nieliniowe, maszyny wektorów wspieraj(cid:241)cych i sieci neuronowe Podsumowanie 10 (cid:95) Spis tre(cid:316)ci Kup książkęPoleć książkę Nadmierne dopasowanie i jego unikanie ..................................................................121 Podstawowe poj(cid:246)cia: Generalizacja; Dopasowanie i nadmierne dopasowanie; Kontrola z(cid:228)o(cid:276)ono(cid:264)ci. Przyk(cid:228)adowe techniki: Sprawdzian krzy(cid:276)owy; Wybór atrybutów; Przycinanie drzew; Regularyzacja. Generalizacja Nadmierne dopasowanie („przeuczenie”) Badanie nadmiernego dopasowania Dane wydzielone i wykresy dopasowania Nadmierne dopasowanie w indukcji drzew decyzyjnych Nadmierne dopasowanie w funkcjach matematycznych Przyk(cid:228)ad: nadmierne dopasowanie funkcji liniowych * Przyk(cid:228)ad: dlaczego nadmierne dopasowanie jest niekorzystne? Od ewaluacji danych wydzielonych do sprawdzianu krzy(cid:276)owego Zbiór danych dotycz(cid:241)cych odp(cid:228)ywu abonentów — nowe spojrzenie Krzywe uczenia si(cid:246) Unikanie nadmiernego dopasowania i kontrola z(cid:228)o(cid:276)ono(cid:264)ci Unikanie nadmiernego dopasowania w indukcji drzew decyzyjnych Ogólna metoda unikania nadmiernego dopasowania * Unikanie nadmiernego dopasowania w celu optymalizacji parametrów Podsumowanie 5. 6. 121 122 123 123 125 127 128 131 133 136 137 139 139 141 142 145 148 150 150 152 154 156 158 162 162 163 165 167 167 168 172 176 Podobie(cid:295)stwo, s(cid:233)siedzi i klastry ............................................................................... 147 Podstawowe poj(cid:246)cia: Obliczanie podobie(cid:254)stwa obiektów opisanych przez dane; Wykorzystywanie podobie(cid:254)stwa do celów predykcji; Klastrowanie jako segmentacja oparta na podobie(cid:254)stwie. Przyk(cid:228)adowe techniki: Poszukiwanie podobnych jednostek; Metody najbli(cid:276)szych s(cid:241)siadów; Metody klastrowania; Miary odleg(cid:228)o(cid:264)ci do obliczania podobie(cid:254)stwa. Podobie(cid:254)stwo i odleg(cid:228)o(cid:264)(cid:232) Wnioskowanie metod(cid:241) najbli(cid:276)szych s(cid:241)siadów Przyk(cid:228)ad: analityka whisky Najbli(cid:276)si s(cid:241)siedzi w modelowaniu predykcyjnym Ilu s(cid:241)siadów i jak du(cid:276)y wp(cid:228)yw? Interpretacja geometryczna, nadmierne dopasowanie i kontrola z(cid:228)o(cid:276)ono(cid:264)ci Problemy z metodami najbli(cid:276)szych s(cid:241)siadów Kilka istotnych szczegó(cid:228)ów technicznych dotycz(cid:241)cych podobie(cid:254)stw i s(cid:241)siadów Atrybuty heterogeniczne * Inne funkcje odleg(cid:228)o(cid:264)ci * Funkcje (cid:228)(cid:241)cz(cid:241)ce: obliczanie wska(cid:274)ników na podstawie s(cid:241)siadów Klastrowanie Przyk(cid:228)ad: analityka whisky — nowe spojrzenie Klastrowanie hierarchiczne Najbli(cid:276)si s(cid:241)siedzi na nowo: klastrowanie wokó(cid:228) centroidów Przyk(cid:228)ad: klastrowanie wiadomo(cid:264)ci biznesowych Spis tre(cid:316)ci (cid:95) 11 Kup książkęPoleć książkę 7. 8. 9. Zrozumienie wyników klastrowania 179 * Wykorzystywanie uczenia nadzorowanego do generowania opisów klastrów 181 183 185 Krok wstecz: rozwi(cid:241)zywanie problemu biznesowego kontra eksploracja danych Podsumowanie My(cid:316)lenie w kategoriach analityki decyzji I: co to jest dobry model? ...................... 187 Podstawowe poj(cid:246)cia: Staranne rozwa(cid:276)enie, czego oczekujemy od wyników nauki o danych; Warto(cid:264)(cid:232) oczekiwana jako kluczowa platforma ewaluacji; Uwzgl(cid:246)dnianie odpowiednich porównawczych punktów odniesienia. Przyk(cid:228)adowe techniki: Ró(cid:276)ne miary ewaluacji; Szacowanie kosztów i korzy(cid:264)ci; Obliczanie oczekiwanego zysku; Tworzenie metod bazowych dla porówna(cid:254). Ewaluacja klasyfikatorów Zwyk(cid:228)a dok(cid:228)adno(cid:264)(cid:232) i jej problemy Macierz pomy(cid:228)ek Problemy z niezrównowa(cid:276)onymi klasami Problemy nierównych kosztów i korzy(cid:264)ci Generalizowanie poza klasyfikacj(cid:241) Kluczowa platforma analityczna: warto(cid:264)(cid:232) oczekiwana Wykorzystywanie warto(cid:264)ci oczekiwanej do systematyzowania zastosowania klasyfikatora Wykorzystywanie warto(cid:264)ci oczekiwanej do systematyzowania ewaluacji klasyfikatora Ewaluacja, skuteczno(cid:264)(cid:232) bazowa oraz implikacje dla inwestowania w dane Podsumowanie 188 189 189 190 191 193 193 194 195 201 205 Wizualizacja skuteczno(cid:316)ci modelu ...........................................................................207 Podstawowe poj(cid:246)cia: Wizualizacja skuteczno(cid:264)ci modelu przy ró(cid:276)nych rodzajach niepewno(cid:264)ci; Dalsze rozwa(cid:276)ania odno(cid:264)nie tego, czego nale(cid:276)y oczekiwa(cid:232) od wyników eksploracji danych. Przyk(cid:228)adowe techniki: Krzywe zysku; Krzywe (cid:228)(cid:241)cznej reakcji; Krzywe przyrostu; Krzywe ROC. Ranking zamiast klasyfikowania Krzywe zysku Wykresy i krzywe ROC Pole pod krzyw(cid:241) ROC (AUC) Krzywe (cid:228)(cid:241)cznej reakcji i krzywe przyrostu Przyk(cid:228)ad: analityka skuteczno(cid:264)ci w modelowaniu odp(cid:228)ywu abonentów Podsumowanie 207 209 212 216 216 219 226 Dowody i prawdopodobie(cid:295)stwa ..............................................................................227 Podstawowe poj(cid:246)cia: Jednoznaczne (cid:228)(cid:241)czenie dowodów za pomoc(cid:241) twierdzenia Bayesa; Wnioskowanie probabilistyczne poprzez za(cid:228)o(cid:276)enia warunkowej niezale(cid:276)no(cid:264)ci. Przyk(cid:228)adowe techniki: Klasyfikacja bayesowska; Przyrost warto(cid:264)ci dowodu. Przyk(cid:228)ad: targetowanie klientów reklam internetowych 227 12 (cid:95) Spis tre(cid:316)ci Kup książkęPoleć książkę Probabilistyczne (cid:228)(cid:241)czenie dowodów Prawdopodobie(cid:254)stwo (cid:228)(cid:241)czne i niezale(cid:276)no(cid:264)(cid:232) Twierdzenie Bayesa Zastosowanie twierdzenia Bayesa w nauce o danych Niezale(cid:276)no(cid:264)(cid:232) warunkowa i naiwny klasyfikator bayesowski Zalety i wady naiwnego klasyfikatora bayesowskiego Model „przyrostu” warto(cid:264)ci dowodu Przyk(cid:228)ad: przyrosty warto(cid:264)ci dowodów z „polubie(cid:254)” na Facebooku Dowody w akcji: targetowanie klientów reklamami Podsumowanie 229 230 231 232 234 235 237 238 240 240 10. Reprezentacja i eksploracja tekstu ...........................................................................243 Podstawowe poj(cid:246)cia: Znaczenie konstruowania przyjaznych eksploracji reprezentacji danych; Reprezentacja tekstu do celów eksploracji danych. Przyk(cid:228)adowe techniki: Reprezentacja worka s(cid:228)ów (bag of words); Kalkulacja TFIDF; N-gramy; Sprowadzanie do formy podstawowej (stemming); Ekstrakcja wyra(cid:276)e(cid:254) nazwowych; Modele tematyczne. Dlaczego tekst jest istotny Dlaczego tekst jest trudny Reprezentacja 244 244 245 245 246 248 249 250 253 255 255 255 256 257 257 259 262 262 266 Worek s(cid:228)ów (bag of words) Cz(cid:246)sto(cid:264)(cid:232) termów Mierzenie rzadko(cid:264)ci (sparseness): odwrotna cz(cid:246)sto(cid:264)(cid:232) w dokumentach (cid:227)(cid:241)czenie reprezentacji: TFIDF Przyk(cid:228)ad: muzycy jazzowi * Zwi(cid:241)zek IDF z entropi(cid:241) Oprócz worka s(cid:228)ów N-gramy Ekstrakcja wyra(cid:276)e(cid:254) nazwowych Modele tematyczne Przyk(cid:228)ad: eksploracja wiadomo(cid:264)ci w celu prognozowania zmian cen akcji Zadanie Dane Wst(cid:246)pne przetwarzanie danych Wyniki Podsumowanie 11. My(cid:316)lenie w kategoriach analityki decyzji II: w kierunku in(cid:348)ynierii analitycznej ............................................................................267 Podstawowe poj(cid:246)cie: Rozwi(cid:241)zywanie problemów biznesowych z wykorzystaniem nauki o danych rozpoczyna si(cid:246) od in(cid:276)ynierii analitycznej: projektowania rozwi(cid:241)zania analitycznego z wykorzystaniem dost(cid:246)pnych danych, narz(cid:246)dzi i technik. Przyk(cid:228)adowa technika: Warto(cid:264)(cid:232) oczekiwana jako platforma opracowania rozwi(cid:241)zania z zakresu nauki o danych. Spis tre(cid:316)ci (cid:95) 13 Kup książkęPoleć książkę Targetowanie najlepszych potencjalnych klientów przesy(cid:228)ek organizacji pozyskuj(cid:241)cych fundusze Platforma warto(cid:264)ci oczekiwanej: rozk(cid:228)ad problemu biznesowego i ponowne zestawienie elementów rozwi(cid:241)zania Krótka dygresja na temat stronniczo(cid:264)ci selekcji Nowe, jeszcze bardziej zaawansowane spojrzenie na nasz przyk(cid:228)ad odp(cid:228)ywu abonentów Platforma warto(cid:264)ci oczekiwanej: strukturyzacja bardziej skomplikowanego problemu biznesowego Ocena wp(cid:228)ywu zach(cid:246)ty Od rozk(cid:228)adu warto(cid:264)ci oczekiwanej do rozwi(cid:241)zania z obszaru nauki o danych Podsumowanie 268 268 270 271 271 272 274 277 Inne zadania i techniki nauki o danych ....................................................................279 Podstawowe poj(cid:246)cia: Nasze podstawowe poj(cid:246)cia jako baza wielu typowych technik nauki o danych; Znaczenie wiedzy o elementach sk(cid:228)adowych nauki o danych. Przyk(cid:228)adowe techniki: Zale(cid:276)no(cid:264)(cid:232) i wspó(cid:228)wyst(cid:246)powanie; Profilowanie zachowa(cid:254); Predykcja po(cid:228)(cid:241)cze(cid:254); Redukcja danych; Eksploracja informacji ukrytych; Rekomendowanie filmów; Rozk(cid:228)ad b(cid:228)(cid:246)du pod wzgl(cid:246)dem stronniczo(cid:264)ci — wariancji; Zespo(cid:228)y modeli; Wnioskowanie przyczynowe z danych. Wspó(cid:228)wyst(cid:241)pienia i zale(cid:276)no(cid:264)ci: znajdowanie elementów, które id(cid:241) w parze Pomiar zaskoczenia: przyrost i d(cid:274)wignia Przyk(cid:228)ad: piwo i kupony loteryjne Zale(cid:276)no(cid:264)ci pomi(cid:246)dzy polubieniami na Facebooku Profilowanie: znajdowanie typowego zachowania Predykcja po(cid:228)(cid:241)cze(cid:254) i rekomendacje spo(cid:228)eczno(cid:264)ciowe Redukcja danych, informacje ukryte i rekomendacje filmów Stronniczo(cid:264)(cid:232), wariancja i metody zespalania Oparte na danych wyja(cid:264)nianie przyczynowe i przyk(cid:228)ad marketingu wirusowego Podsumowanie 12. 13. 280 281 282 282 285 290 291 294 297 298 301 303 304 305 305 306 306 308 309 Nauka o danych i strategia biznesowa ..................................................................... 301 Podstawowe poj(cid:246)cia: Nasze zasady jako podstawa sukcesu firmy dzia(cid:228)aj(cid:241)cej na podstawie danych; Zdobywanie i utrzymywanie przewagi konkurencyjnej za pomoc(cid:241) nauki o danych; Znaczenie dba(cid:228)o(cid:264)ci o potencja(cid:228) nauki o danych. My(cid:264)lenie w kategoriach analityki danych, raz jeszcze Osi(cid:241)ganie przewagi konkurencyjnej przy pomocy nauki o danych Utrzymywanie przewagi konkurencyjnej przy pomocy nauki o danych Nadzwyczajna przewaga historyczna Wyj(cid:241)tkowa w(cid:228)asno(cid:264)(cid:232) intelektualna Wyj(cid:241)tkowe niematerialne aktywa zabezpieczaj(cid:241)ce Lepsi badacze danych Lepsze zarz(cid:241)dzanie zespo(cid:228)em nauki o danych Pozyskiwanie badaczy danych i ich zespo(cid:228)ów oraz opieka nad nimi 14 (cid:95) Spis tre(cid:316)ci Kup książkęPoleć książkę Badanie studiów przypadku z zakresu nauki o danych Gotowo(cid:264)(cid:232) do przyjmowania kreatywnych pomys(cid:228)ów z ka(cid:276)dego (cid:274)ród(cid:228)a Gotowo(cid:264)(cid:232) do oceny propozycji projektów z zakresu nauki o danych Przyk(cid:228)adowa propozycja eksploracji danych B(cid:228)(cid:246)dy w propozycji Big Red Dojrza(cid:228)o(cid:264)(cid:232) firmy w sferze nauki o danych 311 312 312 313 313 315 14. Zako(cid:295)czenie ................................................................................................................317 Podstawowe poj(cid:246)cia nauki o danych 317 Zastosowanie naszych podstawowych poj(cid:246)(cid:232) do nowego problemu: eksploracji danych urz(cid:241)dze(cid:254) przeno(cid:264)nych Zmiana sposobu my(cid:264)lenia o rozwi(cid:241)zaniach problemów biznesowych Czego dane nie mog(cid:241) dokona(cid:232): nowe spojrzenie na decydentów Prywatno(cid:264)(cid:232), etyka i eksploracja danych dotycz(cid:241)cych konkretnych osób Czy jest co(cid:264) jeszcze w nauce o danych? Ostatni przyk(cid:228)ad: od crowdsourcingu do cloudsourcingu Kilka s(cid:228)ów na zako(cid:254)czenie 320 322 323 326 327 328 329 A. B. C. D. Przewodnik dotycz(cid:233)cy oceny propozycji .................................................................. 331 331 Zrozumienie uwarunkowa(cid:254) biznesowych i zrozumienie danych Przygotowanie danych 332 332 Modelowanie Ewaluacja i wdro(cid:276)enie 333 Jeszcze jedna przyk(cid:293)adowa propozycja ...................................................................335 335 Scenariusz i propozycja Wady propozycji GGC 336 S(cid:293)owniczek .................................................................................................................339 Bibliografia ................................................................................................................345 Skorowidz ............................................................................................................................. 351 Spis tre(cid:316)ci (cid:95) 15 Kup książkęPoleć książkę 16 (cid:95) Spis tre(cid:316)ci Kup książkęPoleć książkę ROZDZIA(cid:292) 2. Problemy biznesowe a rozwi(cid:233)zania z zakresu nauki o danych Podstawowe poj(cid:246)cia: Zbiór kanonicznych zada(cid:254) zwi(cid:241)zanych z eksploracj(cid:241) danych; Proces eksploracji danych; Nadzorowana i nienadzorowana eksploracja danych. Wa(cid:276)n(cid:241) zasad(cid:241) nauki o danych jest to, (cid:276)e eksploracja danych jest procesem o stosunkowo dobrze zdefiniowanych etapach. Niektóre z nich wymagaj(cid:241) stosowania technologii informatycznych, takich jak zautomatyzowane wykrywanie i ewaluacja wzorców z danych, podczas gdy inne wi(cid:241)(cid:276)(cid:241) si(cid:246) g(cid:228)ównie z kreatywno(cid:264)ci(cid:241), wiedz(cid:241) biznesow(cid:241) i zdrowym rozs(cid:241)dkiem analityka. Zro- zumienie ca(cid:228)ego procesu pomaga w ujmowaniu projektów eksploracji danych w ramy struk- turalne, a wi(cid:246)c staj(cid:241) si(cid:246) one raczej usystematyzowanymi analizami ni(cid:276) heroicznymi przedsi(cid:246)- wzi(cid:246)ciami nap(cid:246)dzanymi w du(cid:276)ej mierze przez przypadek i wnikliwo(cid:264)(cid:232) badaczy. Poniewa(cid:276) proces eksploracji danych rozbija ogólne zadanie wyszukania wzorców w danych na zestaw dok(cid:228)adnie zdefiniowanych podzada(cid:254), jest on tak(cid:276)e przydatny do strukturyzacji dyskusji o nauce o danych. W tej ksi(cid:241)(cid:276)ce b(cid:246)dziemy wykorzystywa(cid:232) ten proces jako ogóln(cid:241) platform(cid:246) dla naszej dyskusji. W tym rozdziale przedstawimy proces eksploracji danych, ale najpierw wprowadzimy dodatkowy kontekst, omawiaj(cid:241)c typowe zadania z zakresu eksplo- racji danych. Przedstawienie ich pozwoli nam bardziej konkretnie zaprezentowa(cid:232) ca(cid:228)y proces i inne poj(cid:246)cia w kolejnych rozdzia(cid:228)ach. Rozdzia(cid:228) ko(cid:254)czy omówienie szeregu innych istotnych zagadnie(cid:254) z zakresu analityki bizneso- wej, które nie s(cid:241) tematem tej ksi(cid:241)(cid:276)ki (ale o których napisano wiele innych przydatnych ksi(cid:241)- (cid:276)ek), takich jak bazy danych, magazynowanie danych i podstawy statystyki. Od problemów biznesowych do zada(cid:295) eksploracji danych Ka(cid:276)dy problem decyzyjny w firmie, której funkcjonowanie opiera si(cid:246) na danych, jest wyj(cid:241)t- kowy, zawiera w(cid:228)asn(cid:241) kombinacj(cid:246) celów, pragnie(cid:254), ogranicze(cid:254), a nawet osobowo(cid:264)ci. Tak jak w przypadku in(cid:276)ynierii, istniej(cid:241) jednak zbiory typowych zada(cid:254), które le(cid:276)(cid:241) u podstaw pro- blemów biznesowych. We wspó(cid:228)pracy z decydentami w firmach badacze danych rozk(cid:228)adaj(cid:241) problem biznesowy na podzadania. Rozwi(cid:241)zania podzada(cid:254) mog(cid:241) nast(cid:246)pnie zosta(cid:232) po(cid:228)(cid:241)czone 41 Kup książkęPoleć książkę w celu rozwi(cid:241)zania problemu ogólnego. Niektóre z tych podzada(cid:254) s(cid:241) wyj(cid:241)tkowe i dotycz(cid:241) tylko jednego konkretnego problemu biznesowego, ale inne to typowe zadania eksploracji danych. Nasz problem z odp(cid:228)ywem klientów jest na przyk(cid:228)ad wyj(cid:241)tkowy dla MegaTelCo: ma on specyficzne cechy, które odró(cid:276)niaj(cid:241) go od problemów zwi(cid:241)zanych z odp(cid:228)ywem klientów innych firm telekomunikacyjnych. Podzadaniem, które b(cid:246)dzie jednak prawdopodobnie cz(cid:246)- (cid:264)ci(cid:241) rozwi(cid:241)zania ka(cid:276)dego problemu odp(cid:228)ywu abonentów, b(cid:246)dzie oszacowanie na podstawie danych historycznych prawdopodobie(cid:254)stwa odej(cid:264)cia klienta rezygnuj(cid:241)cego z us(cid:228)ug firmy wkrótce po wyga(cid:264)ni(cid:246)ciu umowy. Kiedy niepowtarzalne dane MegaTelCo zosta(cid:228)y zestawione w okre(cid:264)lony format (co opiszemy w nast(cid:246)pnym rozdziale), oszacowanie prawdopodobie(cid:254)- stwa zacz(cid:246)(cid:228)o wygl(cid:241)da(cid:232) jak jedno z bardzo typowych zada(cid:254) zwi(cid:241)zanych z eksploracj(cid:241) danych. Wiemy du(cid:276)o o rozwi(cid:241)zywaniu typowych zada(cid:254) dotycz(cid:241)cych eksploracji danych, zarówno w kontek(cid:264)cie naukowym, jak i praktycznym. W kolejnych rozdzia(cid:228)ach b(cid:246)dziemy równie(cid:276) pre- zentowa(cid:232) nale(cid:276)(cid:241)ce do sfery nauki o danych platformy, które pomog(cid:241) nam w rozk(cid:228)adaniu pro- blemów biznesowych i zestawianiu rozwi(cid:241)za(cid:254) z podzada(cid:254). W nauce o danych podstawowa jest umiej(cid:246)tno(cid:264)(cid:232) rozk(cid:228)adania problemu z zakresu analityki danych na cz(cid:246)(cid:264)ci w taki sposób, (cid:276)e ka(cid:276)da cz(cid:246)(cid:264)(cid:232) odpowiada znanemu zada- niu, do wykonania którego dost(cid:246)pne s(cid:241) niezb(cid:246)dne narz(cid:246)dzia. Rozpoznawanie zna- nych problemów i ich rozwi(cid:241)zywanie sprawia, (cid:276)e unikamy marnowania czasu i za- sobów na ponowne wynajdywanie ko(cid:228)a. Pozwala nam równie(cid:276) skoncentrowa(cid:232) si(cid:246) na bardziej interesuj(cid:241)cych elementach procesu, które wymagaj(cid:241) zaanga(cid:276)owania ze strony cz(cid:228)owieka — na elementach, które nie zosta(cid:228)y zautomatyzowane, a wi(cid:246)c w ich przypadku w gr(cid:246) wchodz(cid:241) kreatywno(cid:264)(cid:232) i inteligencja. Pomimo wielkiej liczby konkretnych algorytmów eksploracji danych, które opracowano przez lata, istnieje tylko kilka fundamentalnie ró(cid:276)ni(cid:241)cych si(cid:246) typów zada(cid:254), których te algorytmy dotycz(cid:241). Warto te zadania jasno zdefiniowa(cid:232). W kolejnych kilku rozdzia(cid:228)ach b(cid:246)dziemy wyko- rzystywa(cid:232) pierwsze dwa z nich (klasyfikacj(cid:246) i regresj(cid:246)), aby zilustrowa(cid:232) kilka podstawowych poj(cid:246)(cid:232). W dalszej cz(cid:246)(cid:264)ci ksi(cid:241)(cid:276)ki okre(cid:264)lenie „jednostka” b(cid:246)dzie odnosi(cid:232) si(cid:246) do podmiotu, dla którego dost(cid:246)pne s(cid:241) dane, takiego jak klient lub konsument, czy te(cid:276) podmiotu nieo(cid:276)ywionego, takiego jak firma. Bardziej precyzyjnie opiszemy to poj(cid:246)cie w rozdziale 3. W wielu projektach ze sfery analiz biznesowych zale(cid:276)y nam na znalezieniu „korelacji” mi(cid:246)dzy konkretn(cid:241) zmien- n(cid:241) opisuj(cid:241)c(cid:241) dan(cid:241) jednostk(cid:246) a innymi zmiennymi. Mo(cid:276)emy na przyk(cid:228)ad dysponowa(cid:232) opart(cid:241) na danych historycznych informacj(cid:241), którzy klienci zrezygnowali po wyga(cid:264)ni(cid:246)ciu umów. Mo- (cid:276)emy zechcie(cid:232) ustali(cid:232), jakie inne zmienne b(cid:246)d(cid:241) korelowa(cid:232) z odp(cid:228)ywem klientów w najbli(cid:276)szej przysz(cid:228)o(cid:264)ci. Znajdowanie takich korelacji to najbardziej podstawowe przyk(cid:228)ady zada(cid:254) z za- kresu klasyfikacji i regresji. 1. Klasyfikacja i szacowanie prawdopodobie(cid:254)stwa klas próbuj(cid:241) prognozowa(cid:232), dla ka(cid:276)dego osobnika w populacji, do którego z (ma(cid:228)ego) zbioru klas ten osobnik nale(cid:276)y. Zazwyczaj klasy wykluczaj(cid:241) si(cid:246) wzajemnie. Przyk(cid:228)adowe pytanie odnosz(cid:241)ce si(cid:246) do klasyfikacji mog(cid:228)o- by brzmie(cid:232): „Którzy spo(cid:264)ród wszystkich klientów MegaTelCo prawdopodobnie odpowie- dz(cid:241) na z(cid:228)o(cid:276)on(cid:241) ofert(cid:246)?”. W tym przyk(cid:228)adzie dwie klasy mo(cid:276)na by(cid:228)oby nazwa(cid:232) zareaguj(cid:200) i nie zareaguj(cid:200). W zadaniu klasyfikacji procedura eksploracji danych tworzy model, który dla danego no- wego osobnika okre(cid:264)la, do której klasy ten osobnik nale(cid:276)y. (cid:263)ci(cid:264)le powi(cid:241)zanym zadaniem jest scoring lub szacowanie prawdopodobie(cid:254)stwa klasy. Model scoringowy zastosowany dla danego osobnika podaje zamiast klasy wynik okre(cid:264)laj(cid:241)cy prawdopodobie(cid:254)stwo przy- nale(cid:276)no(cid:264)ci danego osobnika do ka(cid:276)dej z klas. W naszym scenariuszu reakcji klienta mo- 42 (cid:95) Rozdzia(cid:293) 2. Problemy biznesowe a rozwi(cid:233)zania z zakresu nauki o danych Kup książkęPoleć książkę del scoringowy b(cid:246)dzie w stanie dokona(cid:232) oceny ka(cid:276)dego pojedynczego klienta i okre(cid:264)li(cid:232), z jakim prawdopodobie(cid:254)stwem zareaguje on na ofert(cid:246). Klasyfikacja i scoring s(cid:241) bardzo (cid:264)ci(cid:264)le powi(cid:241)zane; jak si(cid:246) przekonamy, model klasyfikacyjny mo(cid:276)na zwykle zmodyfikowa(cid:232), aby przeprowadzi(cid:228) scoring, i odwrotnie. 2. Regresja („szacowanie warto(cid:264)ci”) próbuje dla ka(cid:276)dego osobnika oszacowa(cid:232) czy te(cid:276) prze- widzie(cid:232) warto(cid:264)(cid:232) liczbow(cid:241) jakiej(cid:264) zmiennej dotycz(cid:241)cej tego osobnika. Przyk(cid:228)adowe pytanie odnosz(cid:241)ce si(cid:246) do regresji mog(cid:228)oby brzmie(cid:232): „W jakim stopniu dany klient b(cid:246)dzie korzysta(cid:228) z us(cid:228)ugi?”. W(cid:228)a(cid:264)ciwo(cid:264)(cid:232) (zmienna), która tutaj ma zosta(cid:232) przewidziana, to wykorzystanie us(cid:228)ugi, a model móg(cid:228)by zosta(cid:232) wygenerowany na podstawie obserwacji innych podob- nych osobników w ramach populacji i historycznego wykorzystywania przez nich us(cid:228)ugi. Procedura regresji tworzy model, który, bior(cid:241)c pod uwag(cid:246) osobnika, szacuje warto(cid:264)(cid:232) da- nej zmiennej, specyficznej dla tego osobnika. Regresja jest powi(cid:241)zana z klasyfikacj(cid:241), ale si(cid:246) od niej ró(cid:276)ni. Ujmuj(cid:241)c to nieformalnie, kla- syfikacja przewiduje, czy co(cid:264) si(cid:246) stanie, natomiast regresja przewiduje, ile tego czego(cid:264) si(cid:246) stanie. To rozró(cid:276)nienie stanie si(cid:246) bardziej przejrzyste w dalszej tre(cid:264)ci ksi(cid:241)(cid:276)ki. 3. Dopasowywanie podobie(cid:254)stw (ang. similarity matching) próbuje identyfikowa(cid:232) podobne jednostki na podstawie danych o nich. Dopasowywanie podobie(cid:254)stw mo(cid:276)e by(cid:232) stosowa- ne bezpo(cid:264)rednio, w celu znajdowania podobnych osobników. Na przyk(cid:228)ad firma IBM jest zainteresowana znalezieniem firm podobnych do swoich najlepszych klientów bizneso- wych, aby skoncentrowa(cid:232) wysi(cid:228)ki swoich handlowców na najlepszych potencjalnych oka- zjach biznesowych. Wykorzystuje dopasowanie podobie(cid:254)stw, którego podstaw(cid:241) s(cid:241) dane „firmograficzne”, opisuj(cid:241)ce charakterystyczne cechy ró(cid:276)nych firm. Zestawianie podobie(cid:254)stw le(cid:276)y u podstaw jednej z najbardziej popularnych metod rekomendowania produktów (znaj- dowanie osób, które s(cid:241) podobne do nas z punktu widzenia produktów, które im si(cid:246) podo- ba(cid:228)y lub które zosta(cid:228)y przez nie zakupione). Miary podobie(cid:254)stwa le(cid:276)(cid:241) u podstaw szeregu rozwi(cid:241)za(cid:254) innych zada(cid:254) z zakresu eksploracji danych, takich jak klasyfikacja, regresja i kla- strowanie. Podobie(cid:254)stwo i jego zastosowania omawiamy dok(cid:228)adnie w rozdziale 6. 4. Klastrowanie próbuje grupowa(cid:232) jednostki w populacji na podstawie podobie(cid:254)stw, ale nie jest to podyktowane konkretnym celem. Przyk(cid:228)adowe pytanie zwi(cid:241)zane z klastrowaniem mog(cid:228)oby brzmie(cid:232): „Czy klienci tworz(cid:241) naturalne grupy lub segmenty?”. Klastrowanie jest przydatne we wst(cid:246)pnej eksploracji domeny w celu sprawdzenia, jakie naturalne gru- py w niej istniej(cid:241), poniewa(cid:276) grupy te z kolei mog(cid:241) zasugerowa(cid:232) inne zadania z zakresu eksploracji danych lub inne podej(cid:264)cia. Klastrowanie s(cid:228)u(cid:276)y tak(cid:276)e jako wst(cid:246)p do procesów decyzyjnych, koncentruj(cid:241)cych si(cid:246) na takich kwestiach jak: Jakie produkty powinni(cid:264)my zaofe- rowa(cid:232) lub rozwin(cid:241)(cid:232)? Jak(cid:241) struktur(cid:246) powinny mie(cid:232) nasze zespo(cid:228)y obs(cid:228)ugi klienta (czy te(cid:276) zespo(cid:228)y sprzeda(cid:276)owe)? Klastrowanie omawiamy szczegó(cid:228)owo w rozdziale 6. 5. Grupowanie wspó(cid:228)wyst(cid:241)pie(cid:254) (ang. co-occurence grouping, znane równie(cid:276) jako odkrywa- nie zbiorów cz(cid:246)stych, odkrywanie zale(cid:276)no(cid:264)ci i analiza koszykowa rynku) próbuje znajdo- wa(cid:232) powi(cid:241)zania pomi(cid:246)dzy jednostkami na podstawie transakcji z ich udzia(cid:228)em. Przyk(cid:228)ado- we pytanie z zakresu grupowania wspó(cid:228)wyst(cid:241)pie(cid:254) mog(cid:228)oby brzmie(cid:232): „Jakie przedmioty s(cid:241) powszechnie kupowane razem?”. O ile klastrowanie zajmuje si(cid:246) podobie(cid:254)stwami po- mi(cid:246)dzy obiektami na podstawie atrybutów tych obiektów, to grupowanie wspó(cid:228)wyst(cid:241)pie(cid:254) uwzgl(cid:246)dnia podobie(cid:254)stwo obiektów na podstawie ich (cid:228)(cid:241)cznego pojawiania si(cid:246) w trans- akcji. Na przyk(cid:228)ad, analizuj(cid:241)c ewidencj(cid:246) zakupów w supermarkecie, mo(cid:276)emy zauwa(cid:276)y(cid:232), (cid:276)e mielone mi(cid:246)so jest kupowane razem z pikantnym sosem znacznie cz(cid:246)(cid:264)ciej, ni(cid:276) mo(cid:276)na by si(cid:246) spodziewa(cid:232). Zdecydowanie, jakie dzia(cid:228)ania nale(cid:276)y podj(cid:241)(cid:232) w zwi(cid:241)zku z tym odkryciem, Od problemów biznesowych do zada(cid:295) eksploracji danych (cid:95) 43 Kup książkęPoleć książkę mo(cid:276)e wymaga(cid:232) nieco kreatywno(cid:264)ci, ale by(cid:232) mo(cid:276)e wskazane by(cid:228)oby zaproponowanie spe- cjalnej promocji, nowego sposobu prezentacji produktów lub oferty kombinowanej. Wspó(cid:228)- wyst(cid:246)powanie produktów w ramach zakupów to popularny rodzaj grupowania, znany jako analiza koszykowa rynku. Niektóre systemy rekomendacyjne równie(cid:276) przeprowadza- j(cid:241) pewnego rodzaju grupowanie spowinowacone, wyszukuj(cid:241)c na przyk(cid:228)ad pary ksi(cid:241)(cid:276)ek, które s(cid:241) cz(cid:246)sto kupowane przez te same osoby („osoby, które kupi(cid:228)y X, kupi(cid:228)y te(cid:276) Y”). Wynikiem grupowania wspó(cid:228)wyst(cid:241)pie(cid:254) jest opis elementów, które wyst(cid:246)puj(cid:241) razem. Opi- sy te zwykle zawieraj(cid:241) dane statystyczne dotycz(cid:241)ce cz(cid:246)sto(cid:264)ci wspó(cid:228)wyst(cid:246)powania i osza- cowanie, na ile jest to zaskakuj(cid:241)ce. 6. Profilowanie (znane tak(cid:276)e jako opis zachowania) próbuje charakteryzowa(cid:232) typowe zacho- wania jednostki, grupy lub populacji. Przyk(cid:228)adowe pytanie z zakresu profilowania mo- g(cid:228)oby brzmie(cid:232): „Jaki jest typowy poziom wykorzystania telefonów komórkowych w tym segmencie klientów?”. Opis zachowania nie zawsze bywa (cid:228)atwy; profilowanie wykorzy- stania telefonów komórkowych mo(cid:276)e wymaga(cid:232) skomplikowanego opisu przeci(cid:246)tnej ak- tywno(cid:264)ci w godzinach nocnych i w weekendy, wykorzystania telefonu w rozmowach mi(cid:246)- dzynarodowych, op(cid:228)at za roaming, korzystania z SMS-ów i tak dalej. Zachowanie mo(cid:276)na opisa(cid:232) ogólnie dla ca(cid:228)ej populacji lub z coraz wi(cid:246)ksz(cid:241) szczegó(cid:228)owo(cid:264)ci(cid:241), do poziomu ma- (cid:228)ych grup lub nawet poszczególnych osób. Profilowanie jest cz(cid:246)sto wykorzystywane do tworzenia norm zachowania dla aplikacji wy- krywaj(cid:241)cych anomalie, s(cid:228)u(cid:276)(cid:241)cych na przyk(cid:228)ad do wykrywania oszustw lub monitorowa- nia w(cid:228)ama(cid:254) do systemów komputerowych (gdy kto(cid:264) na przyk(cid:228)ad w(cid:228)amuje si(cid:246) na nasze konto w iTunes). Je(cid:276)eli wiemy, jakie zakupy dana osoba zazwyczaj robi, p(cid:228)ac(cid:241)c kart(cid:241) kre- dytow(cid:241), to mo(cid:276)emy okre(cid:264)li(cid:232), czy nowe obci(cid:241)(cid:276)enie karty pasuje do tego profilu czy nie. Mo(cid:276)emy wykorzysta(cid:232) stopie(cid:254) niedopasowania jako wska(cid:274)nik okre(cid:264)laj(cid:241)cy, na ile podejrza- na jest ta sytuacja, i wszcz(cid:241)(cid:232) alarm, je(cid:264)li b(cid:246)dzie on zbyt wysoki. 7. Predykcja po(cid:228)(cid:241)cze(cid:254) próbuje przewidzie(cid:232) po(cid:228)(cid:241)czenia pomi(cid:246)dzy elementami danych, za- zwyczaj poprzez zasugerowanie, (cid:276)e po(cid:228)(cid:241)czenie powinno istnie(cid:232), a czasem tak(cid:276)e szacowa- nie si(cid:228)y po(cid:228)(cid:241)czenia. Predykcja po(cid:228)(cid:241)cze(cid:254) jest powszechna w systemach spo(cid:228)eczno(cid:264)ciowych: „Skoro ty i Karen macie dziesi(cid:246)ciu wspólnych znajomych, to mo(cid:276)e chcesz by(cid:232) znajomym Karen?”. Predykcja po(cid:228)(cid:241)cze(cid:254) mo(cid:276)e te(cid:276) szacowa(cid:232) si(cid:228)(cid:246) po(cid:228)(cid:241)czenia. Na przyk(cid:228)ad, aby zare- komendowa(cid:232) klientom filmy, mogliby(cid:264)my pomy(cid:264)le(cid:232) o wykresie (cid:228)(cid:241)cz(cid:241)cym klientów i fil- my, które obejrzeli lub ocenili. Na wykresie szukamy po(cid:228)(cid:241)cze(cid:254), które pomi(cid:246)dzy klientami i filmami nie istniej(cid:241), ale przewidujemy, (cid:276)e powinny istnie(cid:232) i by(cid:232) silne. Te po(cid:228)(cid:241)czenia sta- nowi(cid:241) podstaw(cid:246) dla rekomendacji. 8. Redukcja danych próbuje du(cid:276)e zbiory danych zast(cid:246)powa(cid:232) mniejszymi, które zawieraj(cid:241) wi(cid:246)kszo(cid:264)(cid:232) istotnych informacji zbiorów wi(cid:246)kszych. Mniejszy zbiór danych mo(cid:276)e by(cid:232) (cid:228)a- twiejszy do obróbki lub przetwarzania. Co wi(cid:246)cej, mniejszy zbiór danych mo(cid:276)e umo(cid:276)li- wia(cid:232) lepszy wgl(cid:241)d w informacje. Ogromny zbiór danych dotycz(cid:241)cych preferencji klien- tów w kwestii ogl(cid:241)dania filmów mo(cid:276)na na przyk(cid:228)ad zredukowa(cid:232) do znacznie mniejszego zbioru danych, ujawniaj(cid:241)cych preferencje gatunkowe konsumentów ukryte w danych zwi(cid:241)zanych z ogl(cid:241)dalno(cid:264)ci(cid:241) (np. preferencje widza dotycz(cid:241)ce gatunków filmowych). Re- dukcja danych prawie zawsze zwi(cid:241)zana jest z utrat(cid:241) informacji. Taki kompromis bywa jednak korzystny, bo umo(cid:276)liwia lepsze zrozumienie istoty problemu. 9. Modelowanie przyczynowe próbuje zrozumie(cid:232), jakie zdarzenia lub dzia(cid:228)ania faktycznie wp(cid:228)ywaj(cid:241) na inne. Za(cid:228)ó(cid:276)my na przyk(cid:228)ad, (cid:276)e u(cid:276)ywamy modelowania predykcyjnego w celu kierowania reklam do klientów i zauwa(cid:276)amy, (cid:276)e poziom zakupów klientów stargetowa- 44 (cid:95) Rozdzia(cid:293) 2. Problemy biznesowe a rozwi(cid:233)zania z zakresu nauki o danych Kup książkęPoleć książkę nych staje si(cid:246) wy(cid:276)szy po skierowaniu do nich reklam. Czy sta(cid:228)o si(cid:246) tak, bo reklamy wp(cid:228)y- n(cid:246)(cid:228)y na klientów, sk(cid:228)aniaj(cid:241)c ich do zakupu? A mo(cid:276)e modele predykcyjne po prostu dobrze si(cid:246) spisa(cid:228)y, identyfikuj(cid:241)c klientów, którzy i tak dokonaliby zakupu? W(cid:264)ród technik mo- delowania przyczynowego istniej(cid:241) takie, które wymagaj(cid:241) powa(cid:276)nych inwestycji w dane, w rodzaju randomizowanych kontrolowanych eksperymentów (np. tak zwanych testów A/B), oraz zaawansowanych metod wyci(cid:241)gania wniosków przyczynowych z zaobser- wowanych danych. Zarówno eksperymentalne, jak i obserwacyjne metody modelowania przyczynowego ogólnie mog(cid:241) by(cid:232) postrzegane jako analiza „kontrfaktyczna”: staraj(cid:241) si(cid:246) one zrozumie(cid:232), jaka by(cid:228)aby ró(cid:276)nica pomi(cid:246)dzy sytuacjami — z których miejsce mo(cid:276)e mie(cid:232) tylko jedna — gdyby „badane” zdarzenie (np. prezentacja reklamy okre(cid:264)lonej jednostce) zasz(cid:228)o i nie zasz(cid:228)o. W ka(cid:276)dym takim przypadku ostro(cid:276)ny badacz danych, wyci(cid:241)gaj(cid:241)c wniosek przyczynowy, powinien zawsze poda(cid:232) dok(cid:228)adne za(cid:228)o(cid:276)enia, które s(cid:241) niezb(cid:246)dne, aby wniosek przyczy- nowy by(cid:228) prawdziwy (takie za(cid:228)o(cid:276)enia istniej(cid:241) zawsze — zawsze o nie pytaj). Podejmuj(cid:241)c si(cid:246) modelowania przyczynowego, firma musi rozwa(cid:276)y(cid:232) kompromis pomi(cid:246)dzy zwi(cid:246)ksze- niem inwestycji, aby zredukowa(cid:232) przyj(cid:246)te za(cid:228)o(cid:276)enia, i zadecydowaniem, (cid:276)e wnioski s(cid:241) wystarczaj(cid:241)co trafne, bior(cid:241)c pod uwag(cid:246) za(cid:228)o(cid:276)enia. Nawet w najbardziej starannie zran- domizowanym, kontrolowanym procesie eksperymentalnym dokonuje si(cid:246) za(cid:228)o(cid:276)e(cid:254), które mog(cid:241) spowodowa(cid:232), (cid:276)e wnioski odnosz(cid:241)ce si(cid:246) do przyczynowo(cid:264)ci b(cid:246)d(cid:241) niew(cid:228)a(cid:264)ciwe. Od- krycie w medycynie efektu placebo ilustruje znan(cid:241) powszechnie sytuacj(cid:246), w której w do- k(cid:228)adnie zaprojektowanym, zrandomizowanym eksperymencie przeoczono za(cid:228)o(cid:276)enie. Szczegó(cid:228)owe omówienie wszystkich tych zada(cid:254) wymaga(cid:228)oby wielu ksi(cid:241)(cid:276)ek. W tej przedsta- wiamy zbiór najbardziej podstawowych zasad nauki o danych, które (cid:228)(cid:241)cznie stanowi(cid:241) fun- dament dla wszystkich rodzajów tych zada(cid:254). Zasady te b(cid:246)dziemy ilustrowa(cid:232), pos(cid:228)uguj(cid:241)c si(cid:246) g(cid:228)ównie klasyfikacj(cid:241), regresj(cid:241), dopasowywaniem podobie(cid:254)stw i klastrowaniem, a inne omó- wimy, gdy b(cid:246)d(cid:241) istotn(cid:241) ilustracj(cid:241) podstawowych zasad (w ko(cid:254)cowej cz(cid:246)(cid:264)ci ksi(cid:241)(cid:276)ki). Zastanówmy si(cid:246), które z tych typów zada(cid:254) mog(cid:228)yby pasowa(cid:232) do naszego problemu z progno- zowaniem odp(cid:228)ywu abonentów. Praktycy cz(cid:246)sto traktuj(cid:241) prognozowanie odp(cid:228)ywu abonen- tów jako problem zwi(cid:241)zany ze znajdowaniem segmentów klientów, których odej(cid:264)cie jest mniej lub bardziej prawdopodobne. Ten problem zwi(cid:241)zany z segmentacj(cid:241) wygl(cid:241)da na problem kla- syfikacji, lub ewentualnie klastrowania, a nawet regresji. Aby wybra(cid:232) najlepsz(cid:241) formu(cid:228)(cid:246), mu- simy najpierw wprowadzi(cid:232) kilka istotnych rozró(cid:276)nie(cid:254). Metody nadzorowane i nienadzorowane Zastanówmy si(cid:246) nad dwoma podobnymi pytaniami, które mogliby(cid:264)my zada(cid:232) populacji na- szych klientów. Pierwsze z nich brzmi: „Czy nasi klienci w naturalny sposób nale(cid:276)(cid:241) do ró(cid:276)- nych grup?”. Tutaj grupowanie nie ma okre(cid:264)lonego celu czy te(cid:276) wielko(cid:264)ci docelowej. Je(cid:276)eli nie ma takiej wielko(cid:264)ci docelowej, to problem eksploracji danych okre(cid:264)la si(cid:246) jako nienadzorowany. Porównajmy to z nieco innym pytaniem: „Czy mo(cid:276)emy znale(cid:274)(cid:232) grupy klientów, w przypad- ku których istnieje szczególnie du(cid:276)e prawdopodobie(cid:254)stwo rezygnacji z us(cid:228)ug naszej firmy po wyga(cid:264)ni(cid:246)ciu umowy?”. W tym miejscu okre(cid:264)lona zosta(cid:228)a konkretna wielko(cid:264)(cid:232) docelowa: czy klient zrezygnuje po wyga(cid:264)ni(cid:246)ciu umowy? W tym przypadku segmentacja jest przeprowadza- na z konkretnego powodu: aby podj(cid:241)(cid:232) dzia(cid:228)anie oparte na prawdopodobie(cid:254)stwie rezygnacji. Taki problem eksploracji danych okre(cid:264)la si(cid:246) jako nadzorowany. Metody nadzorowane i nienadzorowane (cid:95) 45 Kup książkęPoleć książkę Uwaga o terminologii: uczenie nadzorowane i nienadzorowane Terminy nadzorowane i nienadzorowane pochodz(cid:241) z dziedziny uczenia maszynowego. Ujmuj(cid:241)c rzecz metaforycznie, nauczyciel „nadzoruje” ucznia, starannie dostarczaj(cid:241)c informacji o wielko(cid:264)ci docelowej, wraz z zestawem przyk(cid:228)adów. Zadanie zwi(cid:241)zane z nienadzorowanym uczeniem si(cid:246) mo(cid:276)e zawiera(cid:232) ten sam zestaw przyk(cid:228)adów, ale nie zawiera informacji o wielko(cid:264)ci docelowej. Ucze(cid:254) nie zostaje poinformowany o ce- lach uczenia si(cid:246) i ma sformu(cid:228)owa(cid:232) w(cid:228)asne wnioski dotycz(cid:241)ce tego, co przyk(cid:228)ady ma- j(cid:241) wspólnego. Ró(cid:276)nica mi(cid:246)dzy tymi kwestiami jest subtelna, ale istotna. Je(cid:264)li istnieje konkretna wielko(cid:264)(cid:232) doce- lowa, to problem mo(cid:276)na okre(cid:264)li(cid:232) jako nadzorowany. Nadzorowane zadania wymagaj(cid:241) innych technik ni(cid:276) nienadzorowane, a wyniki cz(cid:246)sto bywaj(cid:241) o wiele bardziej przydatne. W technice nadzorowanej grupowanie ma okre(cid:264)lony cel — predykcj(cid:246) wielko(cid:264)ci docelowej. Klastrowanie, zadanie nienadzorowane, tworzy grupy oparte na podobie(cid:254)stwach, ale nie ma gwarancji, (cid:276)e te podobie(cid:254)stwa s(cid:241) znacz(cid:241)ce i b(cid:246)d(cid:241) przydatne do jakiego(cid:264) konkretnego celu. Z technicznego punktu widzenia nadzorowana eksploracja danych wymaga spe(cid:228)nienia jesz- cze jednego warunku: musz(cid:241) istnie(cid:232) dane dotycz(cid:241)ce wielko(cid:264)ci docelowej. Nie wystarczy, (cid:276)e istniej(cid:241) o niej informacje jako takie, musz(cid:241) one równie(cid:276) wyst(cid:246)powa(cid:232) w danych. Dobrze by(cid:228)o- by na przyk(cid:228)ad wiedzie(cid:232), czy dany klient b(cid:246)dzie korzysta(cid:228) z us(cid:228)ug firmy przez co najmniej sze(cid:264)(cid:232) miesi(cid:246)cy, ale je(cid:276)eli w danych historycznych takie informacje nie istniej(cid:241) lub s(cid:241) niekom- pletne (na przyk(cid:228)ad dlatego, (cid:276)e dane s(cid:241) przechowywane tylko przez dwa miesi(cid:241)ce), to warto- (cid:264)ci wielko(cid:264)ci docelowej nie da si(cid:246) okre(cid:264)li(cid:232). Pozyskiwanie danych o wielko(cid:264)ci docelowej cz(cid:246)sto bywa kluczow(cid:241) inwestycj(cid:241) w ramach nauki o danych. Warto(cid:264)(cid:232) zmiennej docelowej jednostki jest cz(cid:246)sto nazywana etykiet(cid:241) tej jednostki, podkre(cid:264)laj(cid:241)c fakt, (cid:276)e cz(cid:246)sto (cho(cid:232) nie zawsze) opa- trywanie danych etykietami wi(cid:241)(cid:276)e si(cid:246) z pewnym wydatkiem. Zadania klasyfikacji, regresji i modelowania przyczynowego s(cid:241) zazwyczaj rozwi(cid:241)zywane przy pomocy metod nadzorowanych. Dopasowywanie podobie(cid:254)stw, predykcja po(cid:228)(cid:241)cze(cid:254) i redukcja danych mog(cid:241) nale(cid:276)e(cid:232) do obu grup. Klastrowanie, grupowanie wspó(cid:228)wyst(cid:241)pie(cid:254) i profilowa- nie zazwyczaj s(cid:241) nienadzorowane. Podstawowe zasady eksploracji danych, które b(cid:246)dziemy przedstawia(cid:232), le(cid:276)(cid:241) u podstaw wszystkich rodzajów tych technik. Dwie g(cid:228)ówne podklasy nadzorowanej eksploracji danych, klasyfikacja i regresja, wyró(cid:276)nia ro- dzaj wielko(cid:264)ci docelowej. Regresja wi(cid:241)(cid:276)e si(cid:246) z liczbow(cid:241) wielko(cid:264)ci(cid:241) docelow(cid:241), podczas gdy klasyfikacja odnosi si(cid:246) do wielko(cid:264)ci docelowej kategorycznej (cz(cid:246)sto binarnej). Zastanówmy si(cid:246) nad poni(cid:276)szymi, podobnymi do siebie pytaniami, które mogliby(cid:264)my zada(cid:232) w ramach nad- zorowanej eksploracji danych: Czy ten klient nab(cid:246)dzie us(cid:228)ug(cid:246) S1, je(cid:264)li otrzyma zach(cid:246)t(cid:246) I? To problem klasyfikacji, poniewa(cid:276) ma binarn(cid:241) wielko(cid:264)(cid:232) docelow(cid:241) (klient albo kupi, albo nie). Który pakiet us(cid:228)ug (S1, S2 lub (cid:276)aden) prawdopodobnie nab(cid:246)dzie klient, je(cid:264)li otrzyma zach(cid:246)t(cid:246) I? To tak(cid:276)e problem klasyfikacji, o trójwarto(cid:264)ciowej wielko(cid:264)ci docelowej. W jakim stopniu ten klient b(cid:246)dzie korzysta(cid:228) z us(cid:228)ugi? To problem regresji, bo ma liczbow(cid:241) wielko(cid:264)(cid:232) docelow(cid:241). Zmienn(cid:241) docelow(cid:241) jest poziom wykorzystania us(cid:228)ugi (rzeczywisty lub prognozowany) dla danego klienta. Pytania te zawieraj(cid:241) pewne subtelno(cid:264)ci, o których warto wspomnie(cid:232). W zastosowaniach biz- nesowych cz(cid:246)sto po(cid:276)(cid:241)dana jest liczbowa predykcja zamiast kategorycznej wielko(cid:264)ci docelowej. W przyk(cid:228)adzie z odp(cid:228)ywem abonentów podstawowa predykcja typu tak/nie dotycz(cid:241)ca tego, 46 (cid:95) Rozdzia(cid:293) 2. Problemy biznesowe a rozwi(cid:233)zania z zakresu nauki o danych Kup książkęPoleć książkę czy klient nadal b(cid:246)dzie korzysta(cid:228) z us(cid:228)ugi, mo(cid:276)e nie by(cid:232) wystarczaj(cid:241)ca; chcemy zamodelowa(cid:232) prawdopodobie(cid:254)stwo, (cid:276)e klient nadal b(cid:246)dzie korzysta(cid:228) z us(cid:228)ugi. I tak uznajemy to za modelowa- nie raczej klasyfikacyjne ni(cid:276) regresyjne, poniewa(cid:276) jego wielko(cid:264)(cid:232) docelowa jest kategoryczna. Tam, gdzie jest to konieczne w celu zapewnienia przejrzysto(cid:264)ci, b(cid:246)dziemy to nazywa(cid:232) „szaco- waniem prawdopodobie(cid:254)stwa klas”. W pocz(cid:241)tkowych etapach procesu eksploracji danych istotn(cid:241) rol(cid:246) pe(cid:228)ni podj(cid:246)cie decyzji, czy b(cid:246)dziemy podchodzi(cid:232) do problemu w sposób nadzorowany czy nienadzorowany, a je(cid:264)li mia(cid:228)- by to by(cid:232) sposób nadzorowany, to konieczne jest stworzenie precyzyjnej definicji zmiennej docelowej. Ta zmienna musi by(cid:232) konkretn(cid:241) wielko(cid:264)ci(cid:241), na której koncentrowa(cid:232) si(cid:246) b(cid:246)dzie eks- ploracja danych (i dla której mo(cid:276)emy uzyska(cid:232) warto(cid:264)ci jakich(cid:264) przyk(cid:228)adów z danych). Wróci- my do tego w rozdziale 3. Eksploracja danych i jej wyniki Istnieje jeszcze inne istotne rozró(cid:276)nienie odnosz(cid:241)ce si(cid:246) do eksploracji danych. Chodzi o ró(cid:276)- nic(cid:246) pomi(cid:246)dzy: (1) eksploracj(cid:241) danych w celu znalezienia wzorców i zbudowania modeli, oraz (2) wykorzystywaniem wyników eksploracji danych. Studenci, poznaj(cid:241)c nauk(cid:246) o danych, cz(cid:246)sto myl(cid:241) te dwa procesy, a mened(cid:276)erowie czasami je robi(cid:241) to samo przy omawianiu analiz biz- nesowych. Wykorzystywanie wyników eksploracji danych powinno wp(cid:228)ywa(cid:232) na sam proces eksploracji danych i go przenika(cid:232), ale te dwie kwestie nale(cid:276)y rozró(cid:276)ni(cid:232). W naszym przyk(cid:228)adzie odp(cid:228)ywu abonentów zastanówmy si(cid:246) nad scenariuszem wdro(cid:276)enia, w którym wykorzystane zostan(cid:241) wyniki. Chcemy wykorzysta(cid:232) model, aby przewidzie(cid:232), któ- ry z naszych klientów odejdzie. Za(cid:228)ó(cid:276)my zw(cid:228)aszcza, (cid:276)e eksploracja danych wytworzy(cid:228)a model oszacowania prawdopodobie(cid:254)stwa klasy M. Ka(cid:276)dy istniej(cid:241)cy klient zosta(cid:228) opisany z wyko- rzystaniem zbioru cech charakterystycznych; M traktuje te cechy jako dane wej(cid:264)ciowe i po- daje wska(cid:274)nik czy te(cid:276) oszacowanie prawdopodobie(cid:254)stwa odej(cid:264)cia klienta. To jest wykorzysta- nie wyników eksploracji danych. Eksploracja danych tworzy model M z innych danych, cz(cid:246)sto historycznych. Rysunek 2.1 przedstawia te dwie fazy. Eksploracja danych tworzy model szacowania praw- dopodobie(cid:254)stwa, co wida(cid:232) w górnej cz(cid:246)(cid:264)ci rysunku. W fazie wykorzystania (dolna po(cid:228)owa) model zostaje zastosowany do nowego, nieznanego przypadku i generuje dla niego oszaco- wanie prawdopodobie(cid:254)stwa. Proces eksploracji danych Eksploracja danych jest rzemios(cid:228)em. Wymaga wykorzystywania w znacz(cid:241)cym stopniu nauki i technologii, ale prawid(cid:228)owe pos(cid:228)ugiwanie si(cid:246) ni(cid:241) zawiera pierwiastek sztuki. Tak jak w przy- padku wielu dojrza(cid:228)ych rzemios(cid:228), istnieje tutaj jednak zrozumia(cid:228)y proces, który nadaje proble- mowi okre(cid:264)lon(cid:241) struktur(cid:246), umo(cid:276)liwiaj(cid:241)c osi(cid:241)gni(cid:246)cie odpowiedniej spójno(cid:264)ci, powtarzalno(cid:264)ci i obiektywizmu. Przydatn(cid:241) kodyfikacj(cid:246) procesu eksploracji danych zawiera schemat Cross Industry Standard Process for Data Mining (CRISP-DM Project, 2000; Shearer, 2000), przedsta- wiony na rysunku 2.21. 1 Patrz tak(cid:276)e strona Wikipedii o procesie CRISP-DM (http://pl.wikipedia.org/wiki/Cross_Industry_Standard_Process_ for_Data_Mining). Proces eksploracji danych (cid:95) 47 Kup książkęPoleć książkę Rysunek 2.1. Eksploracja danych a wykorzystanie wyników eksploracji danych. Górna po(cid:228)owa rysunku przedstawia eksploracj(cid:246) danych historycznych, aby wytworzy(cid:232) model. Co wa(cid:276)ne, w danych historycznych warto(cid:264)(cid:232) wielko(cid:264)ci docelowej („klasy”) jest okre(cid:264)lona. Dolna po(cid:228)owa pokazuje wynik eksploracji w dzia(cid:228)aniu; model zostaje zastosowany do nowych danych, dla których nie znamy warto(cid:264)ci klasy. Model przewiduje zarówno warto(cid:264)(cid:232) klasy, jak i prawdopodobie(cid:254)stwo tego, (cid:276)e zmienna klasy przyjmie t(cid:246) warto(cid:264)(cid:232) Rysunek 2.2. Proces eksploracji danych CRISP 48 (cid:95) Rozdzia(cid:293) 2. Problemy biznesowe a rozwi(cid:233)zania z zakresu nauki o danych Kup książkęPoleć książkę Schemat ten wyra(cid:274)nie pokazuje, (cid:276)e iteracja jest tutaj raczej regu(cid:228)(cid:241) ni(cid:276) wyj(cid:241)tkiem. Przeprowa- dzenie tego procesu jeden raz i nieznalezienie rozwi(cid:241)zania problemu nie jest, ogólnie rzecz bior(cid:241)c, niepowodzeniem. Przeprowadzenie tego procesu cz(cid:246)sto bywa (cid:274)ród(cid:228)em danych i po pierwszej iteracji zespó(cid:228) badaczy danych wie znacznie wi(cid:246)cej. Nast(cid:246)pna iteracja mo(cid:276)e wi(cid:246)c by(cid:232) znacznie bardziej trafna. Przedyskutujmy teraz szczegó(cid:228)owo kolejne jego etapy. Zrozumienie uwarunkowa(cid:295) biznesowych Przede wszystkim podstawowe znaczenie ma zrozumienie problemu, który ma zosta(cid:232) roz- wi(cid:241)zany. Mo(cid:276)e si(cid:246) to wydawa(cid:232) oczywiste; projekty biznesowe rzadko funkcjonuj(cid:241) jako jasne i jednoznaczne problemy z zakresu eksploracji danych. Cz(cid:246)sto przekszta(cid:228)cenie problemu i opra- cowanie rozwi(cid:241)zania jest iteracyjnym procesem odkrywania. Schemat pokazany na rysunku 2.2 obrazuje to raczej jako cykle wewn(cid:241)trz cyklu, a nie prosty proces linearny. Wst(cid:246)pne sfor- mu(cid:228)owanie niekoniecznie bywa kompletne czy te(cid:276) optymalne, wi(cid:246)c wielokrotne powtórzenia mog(cid:241) by(cid:232) niezb(cid:246)dne do sformu(cid:228)owania mo(cid:276)liwego do przyj(cid:246)cia rozwi(cid:241)zania. Etap zrozumienia uwarunkowa(cid:254) biznesowych stanowi ten element rzemios(cid:228)a, w którym bar- dzo du(cid:276)(cid:241) rol(cid:246) odgrywa kreatywno(cid:264)(cid:232) analityka. Nauka o danych ma tutaj, jak si(cid:246) przekonamy, tak(cid:276)e co(cid:264) do powiedzenia, ale cz(cid:246)sto kluczem do wielkiego sukcesu jest twórcze sformu(cid:228)owa- nie problemu przez analityka, okre(cid:264)laj(cid:241)ce sposób przedstawienia problemu biznesowego jako jednego lub kilku problemów z zakresu nauki o danych. Wysoki poziom wiedzy o podstawach pomaga kreatywnym analitykom biznesowym dostrzega(cid:232) nowatorskie formu(cid:228)y. Dysponujemy zestawem skutecznych narz(cid:246)dzi do rozwi(cid:241)zywania poszczególnych problemów eksploracji danych: podstawowe zadania eksploracji danych omawiali(cid:264)my w podrozdziale „Od problemów biznesowych do zada(cid:254) eksploracji danych”. Zwykle wczesne etapy przed- si(cid:246)wzi(cid:246)cia obejmuj(cid:241) opracowywanie rozwi(cid:241)zania, które wykorzystuje te narz(cid:246)dzia. Mo(cid:276)e to oznacza(cid:232) ujmowanie (opracowywanie) problemu w taki sposób, (cid:276)e jeden lub kilka problemów cz(cid:246)(cid:264)ciowych wi(cid:241)(cid:276)e si(cid:246) z budowaniem modeli do celów klasyfikacji, regresji, szacowania praw- dopodobie(cid:254)stwa itd. W ramach tego pierwszego etapu zespó(cid:228) projektowy powinien dok(cid:228)adnie przemy(cid:264)le(cid:232) scenariusz przypadków u(cid:276)ycia. To jedno z najwa(cid:276)niejszych za(cid:228)o(cid:276)e(cid:254) nauki o danych, któremu po(cid:264)wi(cid:246)camy ca(cid:228)e dwa rozdzia(cid:228)y (rozdzia(cid:228) 7. i rozdzia(cid:228) 11.). Co dok(cid:228)adnie chcemy zrobi(cid:232)? Jak chcemy to zrobi(cid:232)? Jakie elementy tego scenariusza u(cid:276)ycia kreuj(cid:241) mo(cid:276)liwe modele eksploracji danych? Omawiaj(cid:241)c te kwestie bardziej szczegó(cid:228)owo, zaczniemy od uproszczonego scenariusza u(cid:276)y- cia, ale w dalszym toku naszych rozwa(cid:276)a(cid:254) wrócimy do podstaw i zrozumiemy, (cid:276)e scenariusz cz(cid:246)sto nale(cid:276)y dostosowywa(cid:232), aby lepiej odzwierciedla(cid:228) rzeczywiste potrzeby biznesowe. Przed- stawimy narz(cid:246)dzia koncepcyjne wspomagaj(cid:241)ce rozumowanie w tym zakresie, w tym umiesz- czenie problemu biznesowego w kontek(cid:264)cie warto(cid:264)ci oczekiwanej, które mo(cid:276)e pozwoli(cid:232) nam na systematyczne roz(cid:228)o(cid:276)enie go na zadania eksploracji danych. Zrozumienie danych Je(cid:264)li rozwi(cid:241)zanie problemu biznesowego jest celem, to dane s(cid:241) dost(cid:246)pnym surowcem, z któ- rego zbudowane zostanie rozwi(cid:241)zanie. Wa(cid:276)ne jest zrozumienie zalet i ogranicze(cid:254) zwi(cid:241)zanych z danymi, bo rzadko dok(cid:228)adnie pokrywaj(cid:241) si(cid:246) one z problemem. Dane historyczne s(cid:241) cz(cid:246)sto gromadzone w celach niezwi(cid:241)zanych z bie(cid:276)(cid:241)cym problemem biznesowym lub w ogóle bez Proces eksploracji danych (cid:95) 49 Kup książkęPoleć książkę wyra(cid:274)nego celu. Baza danych klientów, baza danych transakcji czy baza danych marketingo- wych mo(cid:276)e obejmowa(cid:232) ró(cid:276)ne przenikaj(cid:241)ce si(cid:246) wzajemnie populacje. Poza tym, bazy te mog(cid:241) by(cid:232) w ró(cid:276)nym stopniu wiarygodne. Typowe jest tak(cid:276)e zró(cid:276)nicowanie kosztów danych. Niektóre dane s(cid:241) dost(cid:246)pne praktycznie za darmo, podczas gdy zdobycie innych mo(cid:276)e wymaga(cid:232) wysi(cid:228)ku. Pewne dane mo(cid:276)na kupi(cid:232). Jesz- cze inne po prostu nie istniej(cid:241) i konieczne s(cid:241) ca(cid:228)e projekty pomocnicze, aby zorganizowa(cid:232) ich zebranie. Podstawowa cz(cid:246)(cid:264)(cid:232) fazy zrozumienia danych to oszacowanie kosztów oraz korzy(cid:264)ci wi(cid:241)(cid:276)(cid:241)cych si(cid:246) z ka(cid:276)dym (cid:274)ród(cid:228)em danych i podj(cid:246)cie decyzji, czy dalsze inwestowanie jest uza- sadnione. Nawet po pozyskaniu wszystkich zbiorów danych ich zestawienie mo(cid:276)e wymaga(cid:232) dodatkowego wysi(cid:228)ku. Na przyk(cid:228)ad dane ewidencyjne klientów i identyfikatory produktów powszechnie bywaj(cid:241) niejednoznaczne i zaszumione. Oczyszczanie i dopasowywanie danych klientów, aby mie(cid:232) pewno(cid:264)(cid:232), (cid:276)e ka(cid:276)demu klientowi odpowiada tylko rekord, jest samo w sobie skomplikowanym problemem analitycznym (Hernández i Stolfo, 1995; Elmagarmid, Ipeirotis i Verykios, 2007). W reakcji na post(cid:246)p procesu zrozumienia danych kierunek mog(cid:241) zmienia(cid:232) tak(cid:276)e drogi wio- d(cid:241)ce do rozwi(cid:241)zania problemu, a dzia(cid:228)ania zespo(cid:228)u mog(cid:241) nawet zacz(cid:241)(cid:232) pod(cid:241)(cid:276)a(cid:232) ró(cid:276)nymi to- rami. Ilustracj(cid:246) takiej sytuacji mo(cid:276)na znale(cid:274)(cid:232) w sferze wykrywania oszustw. Eksploracja da- nych jest szeroko wykorzystywana do wykrywania oszustw i wiele problemów wykrywania oszustw zawiera klasyczne zadania nadzorowanej eksploracji danych. Zastanówmy si(cid:246) nad zadaniem wykrycia oszustwa z wykorzystaniem karty kredytowej. Obci(cid:241)(cid:276)enia pojawiaj(cid:241) si(cid:246) na rachunku ka(cid:276)dego klienta, wi(cid:246)c obci(cid:241)(cid:276)enia b(cid:246)d(cid:241)ce wynikiem oszustwa s(cid:241) zwykle wykry- wane — je(cid:264)li nie od razu przez firm(cid:246), to w pó(cid:274)niejszym terminie przez klienta po sprawdzeniu historii rachunku. Mo(cid:276)emy za(cid:228)o(cid:276)y(cid:232), (cid:276)e prawie wszystkie oszustwa s(cid:241) identyfikowane i opa- trywane wiarygodn(cid:241) etykiet(cid:241), poniewa(cid:276) uprawniony klient i osoba pope(cid:228)niaj(cid:241)ca oszustwo to ró(cid:276)ne osoby, maj(cid:241)ce przeciwstawne cele. Transakcje przy u(cid:276)yciu kart kredytowych maj(cid:241) wi(cid:246)c wiarygodne etykiety (oszustwo i uprawnione u(cid:276)ycie), które mog(cid:241) s(cid:228)u(cid:276)y(cid:232) jako wielko(cid:264)ci docelo- we dla techniki nadzorowanej. Rozwa(cid:276)my teraz problem zwi(cid:241)zany z wykrywaniem oszustw w sferze ubezpiecze(cid:254) zdrowot- nych. W Stanach Zjednoczonych to ogromny problem, którego koszt wynosi miliardy dolarów rocznie. Cho(cid:232) mo(cid:276)e si(cid:246) wydawa(cid:232), (cid:276)e mamy tu do czynienia z tradycyjnym problemem wykry- wania oszustw, to kiedy uwzgl(cid:246)dnimy relacj(cid:246) problemu biznesowego do danych, zdamy so- bie spraw(cid:246), (cid:276)e problem jest zupe(cid:228)nie inny. Sprawcy oszustw — dostawcy us(cid:228)ug medycznych, którzy sk(cid:228)adaj(cid:241) fa(cid:228)szywe zg(cid:228)oszenia, a czasem ich pacjenci — s(cid:241) uprawnionymi us(cid:228)ugodawcami i u(cid:276)ytkownikami systemu rozliczeniowego. Sprawcy oszustw s(cid:241) podzbiorem zbioru upraw- nionych u(cid:276)ytkowników; nie ma odr(cid:246)bnej, niezainteresowanej strony, która mog(cid:228)aby okre(cid:264)li(cid:232), jakie dok(cid:228)adnie powinny by(cid:232) „w(cid:228)a(cid:264)ciwe” op(cid:228)aty. W zwi(cid:241)zku z tym dane rozliczeniowe sys- temu ubezpiecze(cid:254) zdrowotnych nie posiadaj(cid:241) wiarygodnej zmiennej docelowej wskazuj(cid:241)cej oszustwo i nie mo(cid:276)e tutaj zosta(cid:232) zastosowane podej(cid:264)cie nadzorowane, które mog(cid:228)oby by(cid:232) skuteczne w przypadku oszustw zwi(cid:241)zanych z kartami kredytowymi. Taki problem wymaga zwykle podej(cid:264)cia nienadzorowanego, na przyk(cid:228)ad profilowania, klastrowania czy grupowa- nia wspó(cid:228)wyst(cid:241)pie(cid:254). To, (cid:276)e oba powy(cid:276)sze problemy dotycz(cid:241) wykrywania oszustw, jest tylko powierzchownym podobie(cid:254)stwem, które tak naprawd(cid:246) jest myl(cid:241)ce. W procesie zrozumienia danych musimy dr(cid:241)(cid:276)y(cid:232) g(cid:228)(cid:246)boko, aby odkry(cid:232) struktur(cid:246) problemu biznesowego i dane, które s(cid:241) dost(cid:246)pne, a na- st(cid:246)pnie dopasowa(cid:232) je do jednego lub wi(cid:246)kszej liczby zada(cid:254) eksploracji danych, dla których 50 (cid:95) Rozdzia(cid:293) 2. Problemy biznesowe a rozwi(cid:233)zania z zakresu nauki o danych Kup książkęPoleć książkę dysponujemy znacz(cid:241)cym zasobem nauki i technologii. W przypadku problemu biznesowego nie jest niczym niezwyk(cid:228)ym, (cid:276)e zawiera on szereg zada(cid:254) eksploracji danych, cz(cid:246)sto nale(cid:276)(cid:241)cych do ró(cid:276)nych typów, i konieczne b(cid:246)dzie po(cid:228)(cid:241)czenie ich rozwi(cid:241)za(cid:254) (patrz rozdzia(cid:228) 11.). Przygotowanie danych Technologie analityczne, których mo(cid:276)emy u(cid:276)y(cid:232), s(cid:241) bardzo skuteczne, ale nak(cid:228)adaj(cid:241) pewne wymogi na dane, które wykorzystuj(cid:241). Cz(cid:246)sto wymagaj(cid:241), (cid:276)eby dane mia(cid:228)y inn(cid:241) posta(cid:232) ni(cid:276) ich naturalna forma, niezb(cid:246)dne b(cid:246)dzie wi(cid:246)c pewne ich przekszta(cid:228)cenie. Dlatego faza przygoto- wania danych przebiega jednocze(cid:264)nie z faz(cid:241) ich zrozumienia; danymi si(cid:246) manipuluje i prze- kszta(cid:228)ca je do postaci, w której przynios(cid:241) lepsze wyniki. Typowe przyk(cid:228)ady przygotowania danych to ich konwersja do postaci tabeli, usuwanie lub dedukcja brakuj(cid:241)cych warto(cid:264)ci i konwertowanie danych na inne ich typy. Niektóre techniki eksploracji danych s(cid:241) przeznaczone dla danych symbolicznych i kategorycznych, inne ope- ruj(cid:241) wy(cid:228)(cid:241)cznie na warto(cid:264)ciach liczbowych. Dodatkowo warto(cid:264)ci liczbowe cz(cid:246)sto musz(cid:241) by(cid:232) normalizowane czy te(cid:276) skalowane, aby by(cid:228)y porównywalne. Istniej(cid:241) standardowe techniki i ogólne zasady umo(cid:276)liwiaj(cid:241)ce przeprowadzanie takich konwersji. W rozdziale 3. omawiamy bardziej szczegó(cid:228)owo formaty danych najbardziej typowe dla procesu eksploracji. Ogólnie jednak w tej ksi(cid:241)(cid:276)ce nie b(cid:246)dziemy koncentrowa(cid:232) si(cid:246) na technikach przygotowania danych, które same w sobie mog(cid:241) by(cid:232) tematem osobnej ksi(cid:241)(cid:276)ki (Pyle, 1999). W kolejnych roz- dzia(cid:228)ach zdefiniujemy podstawowe formaty danych, a szczegó(cid:228)ami zwi(cid:241)zanymi z przygotowy- waniem danych b(cid:246)dziemy zajmowa(cid:232) si(cid:246) tylko wtedy, je(cid:264)li b(cid:246)d(cid:241) one mia(cid:228)y zwi(cid:241)zek z podsta- wowymi zasadami nauki o danych lub b(cid:246)d(cid:241) niezb(cid:246)dne, aby przedstawi(cid:232) konkretny przyk(cid:228)ad. Mówi(cid:241)c bardziej ogólnie, we wst(cid:246)pnej fazie procesu badacze danych po(cid:264)wi(cid:246)caj(cid:241) zwy- kle sporo czasu na zdefiniowanie zmiennych, które b(cid:246)d(cid:241) wykorzystywane w dalszym jego toku. To jeden z g(cid:228)ównych punktów, w których istotne znaczenie maj(cid:241) kreatyw- no(cid:264)(cid:232), zdrowy rozs(cid:241)dek i wiedza fachowa. Warto(cid:264)(cid:232) rozwi(cid:241)zania z zakresu eksploracji danych cz(cid:246)sto opiera si(cid:246) na tym, na ile dobrze analitycy usystematyzuj(cid:24
Pobierz darmowy fragment (pdf)

Gdzie kupić całą publikację:

Analiza danych w biznesie. Sztuka podejmowania skutecznych decyzji
Autor:
,

Opinie na temat publikacji:


Inne popularne pozycje z tej kategorii:


Czytaj również:


Prowadzisz stronę lub blog? Wstaw link do fragmentu tej książki i współpracuj z Cyfroteką: