Cyfroteka.pl

klikaj i czytaj online

Cyfro
Czytomierz
00452 005567 13608573 na godz. na dobę w sumie
Nowe usługi 2.0. Przewodnik po analizie zbiorów danych - ebook/pdf
Nowe usługi 2.0. Przewodnik po analizie zbiorów danych - ebook/pdf
Autor: Liczba stron: 328
Wydawca: Helion Język publikacji: polski
ISBN: 978-83-246-9301-6 Data wydania:
Lektor:
Kategoria: ebooki >> komputery i informatyka >> biznes it >> e-biznes
Porównaj ceny (książka, ebook (-20%), audiobook).

Wykorzystaj dane z sieci do własnych potrzeb!

Internet to nic innego jak gigantyczny zbiór danych. Każdy, kto znajdzie sposób na ich umiejętne wykorzystanie, ma szansę zbudować aplikację, która odniesie światowy sukces. Serwisy randkowe, portale społecznościowe, porównywarki cen — to tylko drobna część serwisów, które możesz wykorzystać przy tworzeniu nowej usługi. Jak analizować dane i wyciągnąć wnioski? Na wiele podobnych pytań odpowiada ta jedyna w swoim rodzaju książka.

W trakcie lektury poznasz najlepsze sposoby filtrowania danych, tworzenia rekomendacji, wykrywania grup oraz wyszukiwania i klasyfikowania. Na kolejnych stronach znajdziesz bogaty zbiór informacji poświęconych algorytmom analizującym dane. Ponadto będziesz mieć możliwość zapoznania się z różnymi sposobami optymalizacji, modelowania przy użyciu drzew decyzyjnych oraz tworzenia modeli cenowych. Książka ta w rękach wprawnego programisty może stanowić niesamowite narzędzie. Otwiera wrota do świata pełnego danych i zależności pomiędzy nimi!

Dzięki tej książce:

Wyciągnij właściwe wnioski z posiadanych danych!

Znajdź podobne książki Ostatnio czytane w tej kategorii

Darmowy fragment publikacji:

Tytuł oryginału: Programming Collective Intelligence: Building Smart Web 2.0 Applications Tłumaczenie: Piotr Pilch ISBN: 978-83-246-9298-9 © 2014 Helion S.A. Authorized Polish translation of the English edition Programming Collective Intelligence ISBN 9780596529321 © 2007 Toby Segaran. This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all rights to publish and sell the same. All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from the Publisher. Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną, fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje naruszenie praw autorskich niniejszej publikacji. Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich właścicieli. Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne i rzetelne. Nie bierze jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym ewentualne naruszenie praw patentowych lub autorskich. Wydawnictwo HELION nie ponosi również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce. Wydawnictwo HELION ul. Kościuszki 1c, 44-100 GLIWICE tel. 32 231 22 19, 32 230 98 63 e-mail: helion@helion.pl WWW: http://helion.pl (księgarnia internetowa, katalog książek) Pliki z przykładami omawianymi w książce można znaleźć pod adresem: ftp://ftp.helion.pl/przyklady/noweus.zip Drogi Czytelniku! Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres http://helion.pl/user/opinie/noweus Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję. Printed in Poland. • Kup książkę • Poleć książkę • Oceń książkę • Księgarnia internetowa • Lubię to! » Nasza społeczność Spis tre(cid:316)ci S(cid:293)owo wst(cid:253)pne .............................................................................................................11 Przedmowa .................................................................................................................. 13 1. Inteligencja zbiorowa — wprowadzenie ................................................................... 21 22 Czym jest inteligencja zbiorowa? 23 Czym jest uczenie maszynowe? 24 Ograniczenia uczenia maszynowego Rzeczywiste przyk(cid:228)ady 24 25 Inne zastosowania algorytmów ucz(cid:241)cych 2. Tworzenie rekomendacji .............................................................................................27 27 28 29 34 36 38 42 45 46 47 Filtrowanie grupowe Gromadzenie preferencji Znajdowanie podobnych u(cid:276)ytkowników Rekomendowanie pozycji Dopasowywanie produktów Tworzenie systemu rekomendowania odno(cid:264)ników del.icio.us Filtrowanie oparte na pozycjach Zastosowanie zbioru danych MovieLens Filtrowanie oparte na u(cid:276)ytkownikach czy pozycjach? (cid:231)wiczenia 3. Wykrywanie grup ........................................................................................................49 49 50 53 57 59 61 Porównanie uczenia nadzorowanego z nienadzorowanym Wektory wyrazów Grupowanie hierarchiczne Rysowanie dendrogramu Grupowanie kolumn Grupowanie k-(cid:264)rednich 5 Kup książkęPoleć książkę Klastry preferencji Wy(cid:264)wietlanie danych w dwóch wymiarach Inne rzeczy, które mog(cid:241) by(cid:232) grupowane (cid:231)wiczenia 64 68 71 72 4. Wyszukiwanie i klasyfikowanie .................................................................................73 73 75 77 81 83 87 91 101 Co znajduje si(cid:246) w wyszukiwarce? Prosty przeszukiwacz Budowanie indeksu Odpytywanie Klasyfikacja oparta na tre(cid:264)ci U(cid:276)ycie odno(cid:264)ników zewn(cid:246)trznych Uczenie na podstawie klikni(cid:246)(cid:232) (cid:231)wiczenia 5. Optymalizacja ............................................................................................................ 103 104 105 106 108 109 111 113 117 122 125 130 130 Podró(cid:276) grupy osób Reprezentowanie rozwi(cid:241)za(cid:254) Funkcja kosztu Wyszukiwanie losowe Metoda najwi(cid:246)kszego wzrostu Symulowane wy(cid:276)arzanie Algorytmy genetyczne Wyszukiwania rzeczywistych lotów Optymalizowanie pod k(cid:241)tem preferencji Wizualizacja sieci Inne mo(cid:276)liwo(cid:264)ci (cid:231)wiczenia 6. Filtrowanie dokumentów .......................................................................................... 133 133 134 135 137 139 142 146 148 150 152 153 154 Filtrowanie spamu Dokumenty i wyrazy Trenowanie klasyfikatora Obliczanie prawdopodobie(cid:254)stw Naiwny klasyfikator Metoda Fishera Utrwalanie klasyfikatorów po przeprowadzonym treningu Filtrowanie kana(cid:228)ów informacyjnych blogów Poprawianie wykrywania w(cid:228)a(cid:264)ciwo(cid:264)ci U(cid:276)ycie interfejsu Akismet Alternatywne metody (cid:231)wiczenia 6 (cid:95) Spis tre(cid:316)ci Kup książkęPoleć książkę 7. Modelowanie przy u(cid:348)yciu drzew decyzyjnych .........................................................157 157 159 160 162 164 166 168 169 171 172 173 176 178 179 Przewidywanie rejestracji Wprowadzenie do drzew decyzyjnych Uczenie drzewa Wybór najlepszego podzia(cid:228)u Budowanie drzewa rekurencyjnego Wy(cid:264)wietlanie drzewa Klasyfikowanie nowych obserwacji Przycinanie drzewa Radzenie sobie z brakuj(cid:241)cymi danymi Radzenie sobie z wynikami liczbowymi Modelowanie cen domów Modelowanie „atrakcyjno(cid:264)ci” Kiedy stosowa(cid:232) drzewa decyzyjne? (cid:231)wiczenia 8. Budowanie modelu cen ..............................................................................................181 181 183 186 189 191 194 196 200 207 207 Budowanie przyk(cid:228)adowego zbioru danych Metoda k-najbli(cid:276)szych s(cid:241)siadów S(cid:241)siednie elementy z okre(cid:264)lon(cid:241) wag(cid:241) Walidacja krzy(cid:276)owa Zmienne heterogeniczne Optymalizowanie skali Rozk(cid:228)ady niejednolite U(cid:276)ycie rzeczywistych danych — interfejs API serwisu eBay Kiedy u(cid:276)ywa(cid:232) metody k-najbli(cid:276)szych s(cid:241)siadów? (cid:231)wiczenia 9. Zaawansowane klasyfikowanie: metody j(cid:233)drowe i maszyny wektorów no(cid:316)nych ......................................................209 Zbiór danych swatki 209 211 Trudno(cid:264)ci zwi(cid:241)zane z danymi 213 Podstawowa klasyfikacja liniowa 217 W(cid:228)a(cid:264)ciwo(cid:264)ci skategoryzowane Skalowanie danych 218 220 Metody j(cid:241)drowe 223 Maszyny wektorów no(cid:264)nych Zastosowanie biblioteki LIBSVM 225 227 Dopasowywanie w serwisie Facebook (cid:231)wiczenia 232 Spis tre(cid:316)ci (cid:95) 7 Kup książkęPoleć książkę 10. Znajdowanie niezale(cid:348)nych w(cid:293)a(cid:316)ciwo(cid:316)ci ..................................................................233 234 237 240 246 249 254 Zbiór artyku(cid:228)ów Wcze(cid:264)niejsze rozwi(cid:241)zania Nieujemna faktoryzacja macierzy Wy(cid:264)wietlanie wyników U(cid:276)ycie danych rynku gie(cid:228)dowego (cid:231)wiczenia 11. Inteligencja rozwojowa .............................................................................................255 255 Czym jest programowanie genetyczne? 258 Programy w postaci drzew 261 Tworzenie populacji pocz(cid:241)tkowej Testowanie rozwi(cid:241)zania 263 267 Krzy(cid:276)owanie 269 Budowanie (cid:264)rodowiska Prosta gra 272 276 Dalsze mo(cid:276)liwo(cid:264)ci (cid:231)wiczenia 278 12. Algorytmy — podsumowanie ................................................................................... 281 281 285 288 292 296 299 303 305 307 Klasyfikator bayesowski Klasyfikator drzew decyzyjnych Sieci neuronowe Maszyny wektorów no(cid:264)nych Metoda k-najbli(cid:276)szych s(cid:241)siadów Grupowanie Skalowanie wielowymiarowe Nieujemna faktoryzacja macierzy Optymalizacja A Zewn(cid:253)trzne biblioteki ................................................................................................311 311 311 312 313 314 315 316 Universal Feed Parser Python Imaging Library Beautiful Soup pysqlite NumPy matplotlib pydelicious 8 (cid:95) Spis tre(cid:316)ci Kup książkęPoleć książkę B Formu(cid:293)y matematyczne ..............................................................................................317 317 317 318 319 319 320 321 321 322 322 Odleg(cid:228)o(cid:264)(cid:232) euklidesowa Wspó(cid:228)czynnik korelacji Pearsona (cid:263)rednia wa(cid:276)ona Wspó(cid:228)czynnik Tanimoto Prawdopodobie(cid:254)stwo warunkowe Niejednorodno(cid:264)(cid:232) Giniego Entropia Wariancja Funkcja Gaussa Iloczyny skalarne Skorowidz ..................................................................................................................324 Spis tre(cid:316)ci (cid:95) 9 Kup książkęPoleć książkę 10 (cid:95) Spis tre(cid:316)ci Kup książkęPoleć książkę ROZDZIA(cid:292) 1. Inteligencja zbiorowa — wprowadzenie Netflix to internetowa wypo(cid:276)yczalnia p(cid:228)yt DVD, która umo(cid:276)liwia wybór filmów z wysy(cid:228)k(cid:241) do domu. Firma podaje rekomendacje na podstawie filmów, które zosta(cid:228)y wcze(cid:264)niej wypo(cid:276)yczone przez klientów. Pod koniec 2006 r. firma Netflix poinformowa(cid:228)a o nagrodzie w wysoko(cid:264)ci 1 mln dolarów dla pierwszej osoby, która poprawi dok(cid:228)adno(cid:264)(cid:232) systemu rekomendacji wypo(cid:276)yczalni o 10 . Ponadto ka(cid:276)dego roku firma b(cid:246)dzie wr(cid:246)cza(cid:232) dodatkowo 50 tys. dolarów aktualnemu lide- rowi do czasu trwania konkursu. W konkursie wzi(cid:246)(cid:228)y udzia(cid:228) tysi(cid:241)ce zespo(cid:228)ów z ca(cid:228)ego (cid:264)wiata. W kwietniu 2007 r. najlepszemu zespo(cid:228)owi uda(cid:228)o si(cid:246) uzyska(cid:232) popraw(cid:246) rekomendacji o 7 . Ko- rzystaj(cid:241)c z danych dotycz(cid:241)cych filmów, które spodoba(cid:228)y si(cid:246) poszczególnym klientom, firma Netflix ma mo(cid:276)liwo(cid:264)(cid:232) rekomendowania filmów innym klientom. Ci klienci mogli nawet nigdy o nich nie s(cid:228)ysze(cid:232). Po ich obejrzeniu mog(cid:241) oni zdecydowa(cid:232) si(cid:246) na kolejne filmy. Ka(cid:276)dy sposób ulepszenia swojego systemu rekomendacji wart jest dla firmy Netflix mnóstwo pieni(cid:246)dzy. Wyszukiwarka internetowa firmy Google zacz(cid:246)(cid:228)a dzia(cid:228)a(cid:232) w 1998 r. W tamtym czasie istnia(cid:228)o ju(cid:276) kilka du(cid:276)ych wyszukiwarek. Wiele osób przyj(cid:246)(cid:228)o, (cid:276)e nowy gracz nie b(cid:246)dzie w stanie konkuro- wa(cid:232) z gigantami bran(cid:276)owymi. Jednak(cid:276)e za(cid:228)o(cid:276)yciele firmy Google zastosowali zupe(cid:228)nie now(cid:241) metod(cid:246) tworzenia rankingów wyników wyszukiwania, korzystaj(cid:241)c z odno(cid:264)ników na milionach stron internetowych podczas okre(cid:264)lania, które strony s(cid:241) najodpowiedniejsze. Wyniki wyszuki- wania wyszukiwarki Google okaza(cid:228)y si(cid:246) znacznie lepsze od oferowanych przez innych gra- czy, którzy w 2004 r. obs(cid:228)ugiwali 85 wyszukiwa(cid:254) w Internecie. Za(cid:228)o(cid:276)yciele firmy Google zaliczaj(cid:241) si(cid:246) obecnie do najbogatszych ludzi (cid:264)wiata. Co te dwie firmy maj(cid:241) ze sob(cid:241) wspólnego? Obie dosz(cid:228)y do nowych wniosków i stworzy(cid:228)y nowe mo(cid:276)liwo(cid:264)ci biznesowe, korzystaj(cid:241)c z zaawansowanych algorytmów w celu po(cid:228)(cid:241)czenia danych zebranych od wielu ró(cid:276)nych osób. Mo(cid:276)liwo(cid:264)(cid:232) gromadzenia informacji i moc obliczeniowa pozwalaj(cid:241)ca na ich interpretowanie stworzy(cid:228)y ogromne mo(cid:276)liwo(cid:264)ci wspó(cid:228)pracy oraz lepszego zrozumienia u(cid:276)ytkowników i klientów. Tego rodzaju dzia(cid:228)ania maj(cid:241) miejsce w ró(cid:276)nych przy- padkach. Serwisom randkowym zale(cid:276)y na szybszym znalezieniu najlepiej dopasowanych kan- dydatów. Pojawiaj(cid:241) si(cid:246) firmy przewiduj(cid:241)ce zmiany cen biletów lotniczych. Niemal ka(cid:276)demu zale(cid:276)y na lepszym zrozumieniu swoich klientów, aby przygotowa(cid:232) reklamy trafiaj(cid:241)ce do w(cid:228)a(cid:264)ciwszych osób. To tylko kilka przyk(cid:228)adów ekscytuj(cid:241)cej dziedziny inteligencji zbiorowej. Rozpowszechnianie si(cid:246) nowych us(cid:228)ug powoduje, (cid:276)e ka(cid:276)dego dnia pojawiaj(cid:241) si(cid:246) nowe mo(cid:276)liwo(cid:264)ci. Wierz(cid:246), (cid:276)e opano- wanie uczenia maszynowego i metod statystycznych stanie si(cid:246) jeszcze wa(cid:276)niejsze w przeró(cid:276)- nych dziedzinach, szczególnie w przypadku interpretowania i organizowania ogromnej ilo(cid:264)ci informacji tworzonych przez ludzi na ca(cid:228)ym (cid:264)wiecie. 21 Kup książkęPoleć książkę Czym jest inteligencja zbiorowa? Poj(cid:246)cie inteligencji zbiorowej jest u(cid:276)ywane od dziesi(cid:246)cioleci. Jego znaczenie i popularno(cid:264)(cid:232) zacz(cid:246)(cid:228)y si(cid:246) zwi(cid:246)ksza(cid:232) wraz z pojawieniem si(cid:246) nowych technologii komunikacji. Cho(cid:232) nazwa terminu mo(cid:276)e przywodzi(cid:232) na my(cid:264)l poj(cid:246)cia zwi(cid:241)zane ze (cid:264)wiadomo(cid:264)ci(cid:241) zbiorow(cid:241) lub zjawiskiem nad- przyrodzonym, to u(cid:276)ywaj(cid:241)c go, specjali(cid:264)ci od technologii maj(cid:241) zwykle na my(cid:264)li (cid:228)(cid:241)czenie za- chowa(cid:254), preferencji lub pomys(cid:228)ów grupy osób w celu uzyskania nowatorskich spostrze(cid:276)e(cid:254). Oczywi(cid:264)cie inteligencja zbiorowa by(cid:228)a mo(cid:276)liwa przed pojawieniem si(cid:246) Internetu. Nie jest wy- magana sie(cid:232) WWW, aby zgromadzi(cid:232) dane od ró(cid:276)nych grup ludzi, po(cid:228)(cid:241)czy(cid:232) je i podda(cid:232) analizie. Jedn(cid:241) z najbardziej podstawowych form inteligencji zbiorowej jest ankieta lub spis ludno(cid:264)ci. Zbieranie odpowiedzi od du(cid:276)ej grupy ludzi umo(cid:276)liwia uzyskanie wniosków statystycznych dotycz(cid:241)cych grupy, których nie okre(cid:264)li(cid:228)by w pojedynk(cid:246) (cid:276)aden jej cz(cid:228)onek. Tworzenie nowych wniosków przy udziale niezale(cid:276)nych uczestników w rzeczywisto(cid:264)ci jest tym, do czego s(cid:228)u(cid:276)y inteligencja zbiorowa. Jej dobrze znanym przyk(cid:228)adem s(cid:241) rynki finansowe, w przypadku których cena nie jest ustalana przez jedn(cid:241) osob(cid:246) ani nie jest wynikiem skoordynowanego dzia(cid:228)ania, lecz stanowi efekt opera- cji handlowych wielu niezale(cid:276)nych od siebie osób, które dzia(cid:228)aj(cid:241) zgodnie z tym, co w ich prze- konaniu s(cid:228)u(cid:276)y ich najlepszemu interesowi. Cho(cid:232) z pocz(cid:241)tku mo(cid:276)e si(cid:246) to wydawa(cid:232) sprzeczne z intuicj(cid:241), rynki kontraktów terminowych, gdzie wielu uczestników handluje kontraktami, próbuj(cid:241)c okre(cid:264)li(cid:232) ich przysz(cid:228)e ceny, s(cid:241) uwa(cid:276)ane za lepsze w przewidywaniu cen ni(cid:276) eksperci, którzy niezale(cid:276)nie przygotowuj(cid:241) prognozy. Wynika to st(cid:241)d, (cid:276)e w przypadku tworzenia przewidywa(cid:254) takie rynki (cid:228)(cid:241)cz(cid:241) w sobie wiedz(cid:246), do(cid:264)wiadczenie i spostrze(cid:276)enia tysi(cid:246)cy osób, a nie analizuj(cid:241) jedynie punkt widzenia jednej osoby. Chocia(cid:276) metody inteligencji zbiorowej istnia(cid:228)y przed powstaniem Internetu, mo(cid:276)liwo(cid:264)(cid:232) gro- madzenia informacji od tysi(cid:246)cy, a nawet milionów osób w sieci internetowej stworzy(cid:228)a wiele nowych opcji analizy. Ludzie u(cid:276)ywaj(cid:241) Internetu do robienia zakupów, prowadzenia bada(cid:254), szukania rozrywki i budowania w(cid:228)asnych witryn internetowych. Wszystkie te dzia(cid:228)ania mo- g(cid:241) by(cid:232) monitorowane i wykorzystywane do uzyskiwania informacji bez (cid:276)adnej konieczno(cid:264)ci wp(cid:228)ywania na intencje u(cid:276)ytkownika przez zadawanie mu pyta(cid:254). Istnieje ogromna liczba mo(cid:276)liwych metod przetwarzania i interpretowania tych informacji. Oto dwa kluczowe przy- k(cid:228)ady prezentuj(cid:241)ce przeciwstawne metody. (cid:120) Wikipedia to internetowa encyklopedia stworzona w ca(cid:228)o(cid:264)ci w wyniku wspó(cid:228)pracy u(cid:276)yt- kowników. Dowolna strona mo(cid:276)e zosta(cid:232) utworzona lub zmodyfikowana przez ka(cid:276)dego. Niewielka liczba administratorów monitoruje powtarzaj(cid:241)ce si(cid:246) nadu(cid:276)ycia. Serwis Wikipe- dia ma wi(cid:246)cej wpisów ni(cid:276) jakakolwiek inna encyklopedia. Pomimo manipulacji dokony- wanych przez u(cid:276)ytkowników o z(cid:228)ych intencjach, generalnie mo(cid:276)e by(cid:232) uwa(cid:276)ana za dok(cid:228)ad- n(cid:241) w przypadku wi(cid:246)kszo(cid:264)ci zagadnie(cid:254). Jest to przyk(cid:228)ad inteligencji zbiorowej, poniewa(cid:276) ka(cid:276)dy artyku(cid:228) jest utrzymywany przez du(cid:276)(cid:241) grup(cid:246) osób. Efektem jest encyklopedia znacznie wi(cid:246)ksza od jakiejkolwiek, która mog(cid:228)aby zosta(cid:232) stworzona przez dowoln(cid:241) pojedyncz(cid:241), skoordynowan(cid:241) grup(cid:246). Oprogramowanie encyklopedii Wikipedia nie realizuje (cid:276)adnych wyszukanych operacji w odniesieniu do uczestnicz(cid:241)cych u(cid:276)ytkowników. Po prostu (cid:264)le- dzi zmiany i wy(cid:264)wietla najnowsz(cid:241) wersj(cid:246). (cid:120) Wspomniana wcze(cid:264)niej wyszukiwarka Google to najpopularniejsza na (cid:264)wiecie wyszukiwar- ka internetowa. Jako pierwsza zacz(cid:246)(cid:228)a ocenia(cid:232) strony internetowe na podstawie liczby innych stron, które si(cid:246) do nich odwo(cid:228)uj(cid:241). W przypadku tej metody oceniania uzyskiwane 22 (cid:95) Rozdzia(cid:293) 1. Inteligencja zbiorowa — wprowadzenie Kup książkęPoleć książkę s(cid:241) informacje o tym, co tysi(cid:241)ce osób stwierdzi(cid:228)y na temat konkretnej strony internetowej. Informacje te s(cid:228)u(cid:276)(cid:241) do tworzenia rankingu wyników wyszukiwania. Jest to rzyk(cid:228)ad inteli- gencji zbiorowej bardzo odmienny od Wikipedii. Serwis Wikipedia wprost zaprasza swoich u(cid:276)ytkowników do uczestnictwa, natomiast wyszukiwarka Google wydobywa wa(cid:276)ne infor- macje o tym, jakie dzia(cid:228)ania twórcy tre(cid:264)ci sieciowych podejmuj(cid:241) w obr(cid:246)bie w(cid:228)asnych wi- tryn, a nast(cid:246)pnie wykorzystuje je do generowania wyników dla swoich u(cid:276)ytkowników. Cho(cid:232) Wikipedia stanowi znakomity zasób i wyj(cid:241)tkowy przyk(cid:228)ad inteligencji zbiorowej, swoje istnienie zawdzi(cid:246)cza bardziej bazie u(cid:276)ytkowników dodaj(cid:241)cych informacje ni(cid:276) sprytnym algo- rytmom zawartym w oprogramowaniu. W ksi(cid:241)(cid:276)ce skoncentrowano si(cid:246) na drugim ko(cid:254)cu tego spektrum, czyli na omówieniu algorytmów takich jak PageRank wyszukiwarki Google, który pobiera dane u(cid:276)ytkownika i przeprowadza obliczenia w celu utworzenia nowych informacji mog(cid:241)cych wp(cid:228)yn(cid:241)(cid:232) na popraw(cid:246) komfortu obs(cid:228)ugi u(cid:276)ytkownika. Cz(cid:246)(cid:264)(cid:232) danych jest gromadzona jawnie, by(cid:232) mo(cid:276)e przez pro(cid:264)b(cid:246) o ocen(cid:246) ró(cid:276)nych rzeczy skierowan(cid:241) do internautów, a cz(cid:246)(cid:264)(cid:232) jest zbierana mimochodem przez obserwacj(cid:246) tego, co jest przez nich kupowane. W obu przypad- kach istotne jest nie samo zbieranie i wy(cid:264)wietlanie informacji, lecz przetwarzanie ich w inteli- gentny sposób i generowanie nowych wiadomo(cid:264)ci. W ksi(cid:241)(cid:276)ce zostan(cid:241) zaprezentowane metody gromadzenia danych za po(cid:264)rednictwem otwartych interfejsów API. Przedstawione b(cid:246)d(cid:241) ró(cid:276)ne algorytmy uczenia maszynowego oraz metody statystyczne. Taka kombinacja umo(cid:276)liwi przygotowanie metod inteligencji zbiorowej dla danych uzyskanych we w(cid:228)asnych aplikacjach, a tak(cid:276)e gromadzenie danych z innych miejsc i ekspery- mentowanie z ich wykorzystaniem. Czym jest uczenie maszynowe? Uczenie maszynowe to dziedzina podlegaj(cid:241)ca sztucznej inteligencji zwi(cid:241)zanej z algorytmami, które umo(cid:276)liwiaj(cid:241) uczenie komputerów. W wi(cid:246)kszo(cid:264)ci przypadków oznacza to, (cid:276)e algorytm otrzymuje zbiór danych i okre(cid:264)la wnioski dotycz(cid:241)ce ich w(cid:228)a(cid:264)ciwo(cid:264)ci. Informacje te umo(cid:276)liwiaj(cid:241) tworzenie przewidywa(cid:254) odno(cid:264)nie do innych danych, które mog(cid:241) pojawi(cid:232) si(cid:246) w przysz(cid:228)o(cid:264)ci. Jest to mo(cid:276)liwe, poniewa(cid:276) niemal wszystkie nielosowe dane zawieraj(cid:241) wzorce, które pozwalaj(cid:241) maszynie dokonywa(cid:232) uogólnie(cid:254). W tym celu trenowany jest model przy u(cid:276)yciu tego, co maszyna uzna za najwa(cid:276)niejsze aspekty danych. Aby zrozumie(cid:232), jak powstaj(cid:241) modele, rozwa(cid:276)my prosty przyk(cid:228)ad ze skomplikowanej dzie- dziny, jak(cid:241) jest filtrowanie poczty elektronicznej. Za(cid:228)ó(cid:276)my, (cid:276)e otrzymywana jest spora ilo(cid:264)(cid:232) spamu, który zawiera s(cid:228)owa „apteka internetowa”. Cz(cid:228)owiek ma odpowiednie mo(cid:276)liwo(cid:264)ci rozpoznawania wzorców, dlatego potrafi szybko stwierdzi(cid:232), (cid:276)e ka(cid:276)da wiadomo(cid:264)(cid:232) zawieraj(cid:241)ca te dwa s(cid:228)owa to spam, który powinien trafi(cid:232) bezpo(cid:264)rednio do kosza. Jest to uogólnienie. W rze- czywisto(cid:264)ci zosta(cid:228) utworzony my(cid:264)lowy model tego, czym jest spam. Po zg(cid:228)oszeniu kilku takich wiadomo(cid:264)ci jako spamu algorytm uczenia maszynowego zaprojektowany do filtrowania spa- mu powinien by(cid:232) w stanie dokona(cid:232) takiego samego uogólnienia. Istnieje wiele ró(cid:276)nych algorytmów uczenia maszynowego, cechuj(cid:241)cych si(cid:246) ró(cid:276)n(cid:241) si(cid:228)(cid:241) dzia(cid:228)ania i dopasowanych do ró(cid:276)nego typu problemów. Niektóre z nich, takie jak drzewa decyzyjne, s(cid:241) transparentne. Oznacza to, (cid:276)e obserwator mo(cid:276)e w pe(cid:228)ni poj(cid:241)(cid:232) proces rozumowania realizowa- ny przez maszyn(cid:246). Inne algorytmy, takie jak sieci neuronowe, to „czarna skrzynka”. Oznacza to, (cid:276)e generuj(cid:241) one odpowied(cid:274), cz(cid:246)sto jednak bardzo trudne jest odtworzenie zwi(cid:241)zanego z tym rozumowania. Czym jest uczenie maszynowe? (cid:95) 23 Kup książkęPoleć książkę Wiele algorytmów uczenia maszynowego intensywnie korzysta z matematyki i statystyki. Zgodnie z definicj(cid:241), któr(cid:241) wcze(cid:264)niej poda(cid:228)em, mo(cid:276)na nawet stwierdzi(cid:232), (cid:276)e prosta analiza kore- lacji i regresja to podstawowe formy uczenia maszynowego. W ksi(cid:241)(cid:276)ce nie za(cid:228)o(cid:276)ono, (cid:276)e czy- telnik ma wiedz(cid:246) z dziedziny statystyki, dlatego podj(cid:241)(cid:228)em si(cid:246) próby obja(cid:264)nienia zastosowanej statystyki w jak najprostszy sposób. Ograniczenia uczenia maszynowego Uczenie maszynowe nie jest pozbawione wad. Algorytmy maj(cid:241) ró(cid:276)ne mo(cid:276)liwo(cid:264)ci uogólniania du(cid:276)ych zbiorów wzorców. Wzorzec, który nie przypomina (cid:276)adnego wcze(cid:264)niej napotkanego przez algorytm, z du(cid:276)ym prawdopodobie(cid:254)stwem zostanie niew(cid:228)a(cid:264)ciwie zinterpretowany. Ludzie mog(cid:241) wykorzystywa(cid:232) rozleg(cid:228)e do(cid:264)wiadczenie i wiedz(cid:246) o charakterze kulturowym, a tak(cid:276)e maj(cid:241) niezwyk(cid:228)(cid:241) zdolno(cid:264)(cid:232) rozpoznawania podobnych sytuacji podczas podejmowania decyzji dotycz(cid:241)cych nowych wiadomo(cid:264)ci. Z kolei metody uczenia maszynowego mog(cid:241) jedynie uogólnia(cid:232) na podstawie ju(cid:276) napotkanych danych, i to w bardzo ograniczony sposób. Metoda filtrowania spamu, która zostanie przedstawiona w ksi(cid:241)(cid:276)ce, opiera si(cid:246) na wyst(cid:246)powaniu s(cid:228)ów lub fraz bez wzgl(cid:246)du na ich znaczenie lub na struktur(cid:246) zda(cid:254). Cho(cid:232) teoretycznie mo(cid:276)liwe jest zbudowanie algorytmu, który uwzgl(cid:246)dnia(cid:228)by gramatyk(cid:246), w praktyce dzieje si(cid:246) to rzadko z powodu wymaganych nak(cid:228)adów nieproporcjonalnie du(cid:276)ych w stosunku do uzyskiwanego ulepszenia algorytmu. Zrozumienie znaczenia s(cid:228)ów lub ich powi(cid:241)zania z (cid:276)yciem danej osoby wymaga(cid:228)oby znacznie wi(cid:246)kszej ilo(cid:264)ci informacji ni(cid:276) ta, do której mog(cid:241) uzyska(cid:232) dost(cid:246)p filtry spamu w swojej obecnej postaci. Poza tym, cho(cid:232) wszystkie metody uczenia maszynowego ró(cid:276)ni(cid:241) si(cid:246) pod tym wzgl(cid:246)dem, s(cid:241) po- datne na mo(cid:276)liwo(cid:264)(cid:232) przesadnego uogólniania. Jak z wi(cid:246)kszo(cid:264)ci(cid:241) rzeczy w (cid:276)yciu, du(cid:276)e uogól- nienia oparte na kilku przyk(cid:228)adach rzadko s(cid:241) w pe(cid:228)ni dok(cid:228)adne. Z pewno(cid:264)ci(cid:241) mo(cid:276)liwe jest otrzymanie od znajomego wa(cid:276)nej wiadomo(cid:264)ci e-mail, która zawiera s(cid:228)owa „apteka interneto- wa”. W tym przypadku poinstruowano by algorytm, (cid:276)e wiadomo(cid:264)(cid:232) nie jest spamem. W rezul- tacie algorytm móg(cid:228)by wywnioskowa(cid:232), (cid:276)e komunikaty od tego konkretnego znajomego s(cid:241) mo(cid:276)- liwe do zaakceptowania. Natura wielu algorytmów uczenia maszynowego jest taka, (cid:276)e mog(cid:241) one kontynuowa(cid:232) proces uczenia wraz z pojawianiem si(cid:246) nowych informacji. Rzeczywiste przyk(cid:293)ady W Internecie istnieje wiele witryn, które obecnie gromadz(cid:241) dane od wielu ró(cid:276)nych osób, a po- nadto stosuj(cid:241) uczenie maszynowe i metody statystyczne w celu skorzystania z nich. Wyszuki- warka Google to prawdopodobnie najwi(cid:246)ksze rozwi(cid:241)zanie (nie tylko u(cid:276)ywa (cid:228)(cid:241)czy internetowych do tworzenia rankingu stron, ale nieustannie zbiera informacje dotycz(cid:241)ce momentu klikni(cid:246)cia re- klam przez ró(cid:276)nych u(cid:276)ytkowników), które umo(cid:276)liwia firmie Google bardziej skuteczne kierowa- nie reklam. W rozdziale 4. zostan(cid:241) omówione wyszukiwarki internetowe i algorytm Page- Rank, który stanowi istotn(cid:241) cz(cid:246)(cid:264)(cid:232) systemu rankingowego wyszukiwarki Google. Inne przyk(cid:228)ady obejmuj(cid:241) witryny internetowe z systemami rekomendacji. Witryny takich firm, jak Amazon i Netflix, u(cid:276)ywaj(cid:241) informacji o rzeczach kupionych lub wypo(cid:276)yczonych przez ludzi do okre(cid:264)lania, jacy internauci lub jakie produkty s(cid:241) do siebie podobne, a nast(cid:246)pnie tworze- nia rekomendacji na podstawie historii zakupów. Inne witryny, takie jak Pandora i Last.fm, stosuj(cid:241) oceny u(cid:276)ytkowników dotycz(cid:241)ce ró(cid:276)nych zespo(cid:228)ów i piosenek, aby tworzy(cid:232) tematyczne 24 (cid:95) Rozdzia(cid:293) 1. Inteligencja zbiorowa — wprowadzenie Kup książkęPoleć książkę stacje radiowe z muzyk(cid:241), która w opinii ich w(cid:228)a(cid:264)cicieli powinna by(cid:232) interesuj(cid:241)ca. W roz- dziale 2. omówiono metody budowania systemów rekomendacji. Rynki prognostyczne to tak(cid:276)e forma inteligencji zbiorowej. Jednym z najbardziej znanych jest serwis Hollywood Stock Exchange (http://hsx.com/), w którym u(cid:276)ytkownicy handluj(cid:241) akcjami zwi(cid:241)zanymi z filmami i gwiazdami filmowymi. Mo(cid:276)liwe jest kupno lub sprzeda(cid:276) akcji po ak- tualnej cenie, je(cid:264)li wiadomo, (cid:276)e jej ostateczna cena b(cid:246)dzie jedn(cid:241) milionow(cid:241) rzeczywistej kwoty w momencie premiery filmu. Ze wzgl(cid:246)du na to, (cid:276)e cena jest zale(cid:276)na od handluj(cid:241)cych akcjami, jej wysoko(cid:264)(cid:232) nie jest ustalana przez (cid:276)adn(cid:241) konkretn(cid:241) osob(cid:246), lecz jako wynik dzia(cid:228)ania grupy. Aktualna cena mo(cid:276)e by(cid:232) przewidywaniem ca(cid:228)ej grupy dotycz(cid:241)cym wyniku finansowego filmu po premierze. Przewidywania okre(cid:264)lane przez serwis Hollywood Stock Exchange s(cid:241) cz(cid:246)sto lepsze od opracowywanych przez poszczególnych ekspertów. Niektóre serwisy randkowe, takie jak eHarmony, u(cid:276)ywaj(cid:241) informacji zebranych od uczestników do okre(cid:264)lenia, kto by(cid:228)by odpowiednim kandydatem. Cho(cid:232) takie firmy utrzymuj(cid:241) zwykle sto- sowane metody dopasowywania osób w tajemnicy, ca(cid:228)kiem prawdopodobne jest, (cid:276)e dowolna skuteczna metoda b(cid:246)dzie uwzgl(cid:246)dnia(cid:232) ci(cid:241)g(cid:228)e ponawianie oceny na podstawie tego, czy wybra- ni kandydaci faktycznie zostali do siebie pomy(cid:264)lnie dopasowani. Inne zastosowania algorytmów ucz(cid:233)cych Metody opisane w ksi(cid:241)(cid:276)ce nie s(cid:241) nowe. Cho(cid:232) przyk(cid:228)ady skupiaj(cid:241) si(cid:246) na problemach z inteligen- cj(cid:241) zbiorow(cid:241) w przypadku zastosowa(cid:254) internetowych, znajomo(cid:264)(cid:232) algorytmów uczenia maszy- nowego mo(cid:276)e okaza(cid:232) si(cid:246) pomocna dla twórców oprogramowania w wielu innych dziedzi- nach. Algorytmy te s(cid:241) szczególnie przydatne w obszarach, w których wykorzystuje si(cid:246) du(cid:276)e zbiory danych przeszukiwane pod k(cid:241)tem interesuj(cid:241)cych wzorców. Oto przyk(cid:228)ady. Biotechnologia Post(cid:246)py w technologii sekwencjonowania i badania przesiewowego spowodowa(cid:228)y utwo- rzenie ogromnych zbiorów ró(cid:276)nych rodzajów danych, takich jak sekwencje kodu DNA, struktury bia(cid:228)ek, przesiewy zwi(cid:241)zków chemicznych i ekspresja RNA. Techniki uczenia maszynowego s(cid:241) intensywnie wykorzystywane w przypadku wszystkich tego rodzaju danych. Ma to na celu znalezienie wzorców, które zwi(cid:246)kszaj(cid:241) stopie(cid:254) zrozumienia proce- sów biologicznych. Wykrywanie oszustw finansowych Firmy obs(cid:228)uguj(cid:241)ce karty kredytowe nieustannie poszukuj(cid:241) nowych sposobów wykrywania nielegalnych transakcji. W zwi(cid:241)zku z tym zastosowa(cid:228)y one takie techniki, jak sieci neuro- nowe i logika indukcyjna, aby weryfikowa(cid:232) transakcje i wychwytywa(cid:232) przypadki nie- w(cid:228)a(cid:264)ciwego u(cid:276)ycia. System wizyjny Interpretowanie obrazów z kamery wideo do celów wojskowych lub obserwacyjnych to ak- tywny obszar bada(cid:254). Wiele technik uczenia maszynowego u(cid:276)ywanych jest w celu podejmo- wania próby automatycznego wykrywania intruzów, identyfikowania pojazdów lub rozpo- znawania twarzy. Szczególnie interesuj(cid:241)ce jest zastosowanie technik nienadzorowanych, takich jak niezale(cid:276)na analiza komponentów, która umo(cid:276)liwia znajdowanie interesuj(cid:241)cych w(cid:228)a- (cid:264)ciwo(cid:264)ci w du(cid:276)ych zbiorach danych. Inne zastosowania algorytmów ucz(cid:233)cych (cid:95) 25 Kup książkęPoleć książkę Marketing produktów Przez bardzo d(cid:228)ugi czas zrozumienie demografii i trendów by(cid:228)o bardziej form(cid:241) sztuki ni(cid:276) nauk(cid:241). Zwi(cid:246)kszona w ostatnim czasie mo(cid:276)liwo(cid:264)(cid:232) gromadzenia danych od konsumentów zapewni(cid:228)a opcje wykorzystania technik uczenia maszynowego, takich jak grupowanie, aby lepiej zrozumie(cid:232) naturalne podzia(cid:228)y istniej(cid:241)ce na rynkach i przygotowa(cid:232) precyzyjniejsze przewidywania dotycz(cid:241)ce przysz(cid:228)ych trendów. Optymalizacja (cid:228)a(cid:254)cucha dostaw Du(cid:276)e organizacje mog(cid:241) zaoszcz(cid:246)dzi(cid:232) miliony dolarów dzi(cid:246)ki efektywnemu funkcjonowa- niu ich (cid:228)a(cid:254)cuchów dostaw i dok(cid:228)adnemu przewidywaniu zapotrzebowania na produkty w ró(cid:276)nych obszarach. Liczba mo(cid:276)liwych metod tworzenia (cid:228)a(cid:254)cucha dostaw jest ogromna, tak samo jak liczba czynników, które potencjalnie mog(cid:241) mie(cid:232) wp(cid:228)yw na popyt. Optymalizacja i techniki uczenia s(cid:241) cz(cid:246)sto u(cid:276)ywane do analizowania zwi(cid:241)zanych z tym zbiorów danych. Analiza rynków gie(cid:228)dowych Od czasu powstania rynku gie(cid:228)dowego ludzie podejmowali próby wykorzystania matematy- ki do zarobienia wi(cid:246)kszej ilo(cid:264)ci pieni(cid:246)dzy. Wraz z coraz wi(cid:246)kszym stopniem zaawansowa- nia uczestników rynku akcji sta(cid:228)o si(cid:246) konieczne analizowanie wi(cid:246)kszych zbiorów danych i u(cid:276)ywanie zaawansowanych technik do wykrywania wzorców. Bezpiecze(cid:254)stwo narodowe Ogromna ilo(cid:264)(cid:232) informacji jest gromadzona przez agencje rz(cid:241)dowe ca(cid:228)ego (cid:264)wiata. Analiza tych danych wymaga od komputerów wykrywania wzorców i wi(cid:241)zania ich z potencjalny- mi zagro(cid:276)eniami. To zaledwie kilka przyk(cid:228)adów intensywnego wykorzystywania uczenia maszynowego. Z po- wodu tego, (cid:276)e tendencj(cid:241) jest generowanie wi(cid:246)kszej ilo(cid:264)ci informacji, prawdopodobnie w wi(cid:246)k- szej liczbie dziedzin konieczne b(cid:246)dzie wykorzystanie uczenia maszynowego i metod staty- stycznych, gdy ilo(cid:264)(cid:232) informacji przekroczy ludzkie mo(cid:276)liwo(cid:264)ci zarz(cid:241)dzania nimi przy u(cid:276)yciu starych sposobów. Bior(cid:241)c pod uwag(cid:246), jak du(cid:276)o nowych informacji udost(cid:246)pnianych jest ka(cid:276)dego dnia, oczywi(cid:264)cie pojawia si(cid:246) znacznie wi(cid:246)cej mo(cid:276)liwo(cid:264)ci. Po poznaniu kilku algorytmów uczenia maszynowe- go zaczn(cid:241) by(cid:232) zauwa(cid:276)alne przeró(cid:276)ne miejsca, w których mog(cid:241) one zosta(cid:232) wykorzystane. 26 (cid:95) Rozdzia(cid:293) 1. Inteligencja zbiorowa — wprowadzenie Kup książkęPoleć książkę Skorowidz API, 16, 23, 39, 173, 176, 201, 227 Application Programming Interface, Patrz: API B backpropagation, Patrz: algorytm wstecznej propagacji b(cid:228)(cid:246)dów Bayesa twierdzenie, Patrz: twierdzenie Bayesa baza danych indeksu pe(cid:228)notekstowego, 77 klient-serwer, 74 pysqlite, Patrz: pysqlite SQLite, 74, 77, 147 Beautiful Soup, 64, 75, 312 biblioteka Beautiful Soup, Patrz: Beautiful Soup j(cid:246)zyka Python, 16 LIBSVM, Patrz: LIBSVM matplotlib, 198 NumPy, Patrz: NumPy PIL, 57, 128, 311 pydelicious, 316 urllib2, 75 biologia obliczeniowa, 49 blisko(cid:264)(cid:232), 54 blog, 49, 50, 52 filtrowanie, 148 C CART, 160 cena, 181, 205, 206, 207 licytacji, 181 centroid, 62 Classification and Regression Trees, Patrz: CART D dane, Patrz te(cid:276): baza danych, zbiór brakuj(cid:241)ce, 171 demograficzne, 49 gromadzenie, 23 grupowanie, 49, 50, 54 liczbowe, 217 macierz, Patrz: macierz artyku(cid:228)ów nieliniowo(cid:264)(cid:232), 211 przekszta(cid:228)cenie w liczby, 217 skalowanie, 193, 194, 218, 297 optymalizacja, 194 transformacja do nowej przestrzeni, 221, 293 w(cid:228)a(cid:264)ciwo(cid:264)ci wyodr(cid:246)bnianie, 233, 235 wzajemna zale(cid:276)no(cid:264)(cid:232) zmiennych, 211 del.icio.us, 16, 38, 39, 316 demografia, 26 dendrogram, 57, 60 Document Object Model, Patrz: DOM dokument gromadzenie, 73 klasyfikacja, 133 tabela, 73, 78 XML, 51 DOM, 118 domena rozwi(cid:241)zania, 308 drzewo, 258 decyzyjne, 23, 49, 157, 159, 168, 169, 172, 178, 181, 212, 285, 287 brakuj(cid:241)ce dane, 171 nadmiernie dopasowane, 169, 170 przycinanie, 169, 170 rekurencyjne, 164 A Akismet, 16, 152 aktualizowanie multiplikatywne, 244 algorytm, 23, 281 backpropagation, Patrz: algorytm wstecznej propagacji b(cid:228)(cid:246)dów CART, Patrz: CART filtrowania grupowego, Patrz: filtrowanie grupowe genetyczny, 113, 116, 256, 308 kNN, Patrz: kNN NMF, Patrz: macierz faktoryzacja nieujemna PageRank, Patrz: PageRank sprz(cid:246)(cid:276)enia wyprzedzaj(cid:241)cego, 96 syntetyzuj(cid:241)cy inteligencj(cid:246) zbiorow(cid:241), 16 transparentny, 23 uczenia maszynowego, Patrz: uczenie maszynowe wstecznej propagacji b(cid:228)(cid:246)dów, 93, 97 wybór, 209, 255 wyodr(cid:246)bniania w(cid:228)a(cid:264)ciwo(cid:264)ci, Patrz: dane w(cid:228)a(cid:264)ciwo(cid:264)(cid:232) wyodr(cid:246)bnianie wyró(cid:276)niania rdzeni wyrazów, 79 wyszukiwania pe(cid:228)notekstowego, 73 zmieniaj(cid:241)cy wagi po(cid:228)(cid:241)cze(cid:254) mi(cid:246)dzy w(cid:246)z(cid:228)ami, Patrz: algorytm wstecznej propagacji b(cid:228)(cid:246)dów Amazon, 24, 27 analiza komponentów niezale(cid:276)na, 25 korelacji, 24 rynków gie(cid:228)dowych, 26 324 (cid:95) Skorowidz Kup książkęPoleć książkę uczenie, 160, 285 wady, 287 wy(cid:264)wietlanie, 166, 167 zalety, 287 g(cid:228)(cid:246)boko(cid:264)(cid:232), 263 rekurencyjne, 258 reprezentacja, 259 sk(cid:228)adni, 258 w(cid:246)ze(cid:228), 259 przechowywania, 277 wy(cid:264)wietlanie, 261 E eBay, 16, 200, 202 Quick Start Guide, 201 eHarmony, 25 elitaryzm, 113 e-mail dystrybucja masowa, 158 identyfikowanie, 133 entropia, 163, 164, 170, 321 przyrost informacji, 164 F Facebook, 227 klucz programisty, 227 sesja, 228 znajomy, 229, 230 faktoryzacja macierzy, Patrz: macierz faktoryzacja filtrowanie bayesowskie, 50, 139, 140, 141, 154, 157, 158, 181, 238, 281, 283 wady, 284 zalety, 284 grupowe, 28, 42, 46, 47 poczty elektronicznej, 23 spamu, Patrz: spam filtrowanie Fishera metoda, Patrz: metoda Fishera funkcja bazowa radialna, 221, 222 entropii, Patrz: entropia Gaussa, 188, 322 kosztu, 106, 124, 130, 244, 307, 308 niejednorodno(cid:264)ci Giniego, Patrz: niejednorodno(cid:264)(cid:232) Giniego odejmowania, 187 odwrotna, 186 okre(cid:264)lania wag, 100 pow, 30 przydatno(cid:264)ci, 256 sigmoidalna, 96 tangensa hiperbolicznego, 95 wa(cid:276)ona kNN, 189, 322 G Gaussa funkcja, Patrz: funkcja Gaussa generacja, 113, 256, 308 pocz(cid:241)tkowa, 261 Goldberg David, 28 Google, 21, 22, 24, 88 granica decyzyjna, 212 gromadzenie dokumentów, 73 GroupLens, 45 grupowanie, 233, 238 danych, Patrz: dane grupowanie hierarchiczne, 53, 55, 57, 61, 299, 300, 302 kolumn, 59 k-(cid:264)rednich, 62, 299, 301 wierszy, 59 H hill climbing, Patrz: metoda najwi(cid:246)kszego wzrostu hiperp(cid:228)aszczyzna z maksymalnym marginesem, 223 hodowanie, Patrz: krzy(cid:276)owanie Holland John, 116 Hollywood Stock Exchange, 25 Hot or Not, 16, 176 HTML, 79 I iloczyn skalarny, 215, 216, 221, 222, 293, 322 implementacja referencyjna, 14 indeks pe(cid:228)notekstowy, 77, 79, 80 inteligencja rozwojowa, 255 sztuczna, 23 w grze, 272 zbiorowa, 22, 25, 249, 255 interfejs Akismet, Patrz: Akismet API, Patrz: API J Jaccarda wspó(cid:228)czynnik, Patrz: wspó(cid:228)czynnik Jaccarda j(cid:246)zyk Lisp, 258 Python, Patrz: Python XML, Patrz: XML K kana(cid:228) informacyjny Atom, 51, 234 RSS, 51, 234 filtrowanie, 148 Kayak, 16, 117, 119 k-centroid, 62 klaster, 55, 57 b(cid:228)(cid:241)d ca(cid:228)kowity, 58 (cid:264)rodek, 62 wysoko(cid:264)(cid:232), 58 klasyfikacja odno(cid:264)ników zewn(cid:246)trznych, 82, 87, 88, 91 oparta na tre(cid:264)ci, 82, 83 klasyfikator, 135, 146, 153, 209, 238 bayesowski, 140, 154, 157, 181, 238, 281, 283 naiwny, 139, 142, 143, 146 uczenie, 282 wady, 284 zalety, 284 drzew decyzyjnych, Patrz: drzewo decyzyjne Fishera, Patrz: metoda Fishera liniowy, 213, 214, 216, 220, 293 oparty na regu(cid:228)ach, 133, 134, 141 na w(cid:228)a(cid:264)ciwo(cid:264)ci, 134, 141, 145 k-Nearest Neighbors, Patrz: kNN kNN, 183, 185, 196, 207, 296, 298 wady, 299 wagi, 186, 189, 196, 298 zalety, 299 kodu wci(cid:246)cie, 15 korelacja Pearsona, 29, 31, 32, 33, 35, 54, 66, 317 krzywa dzwonowa, 188, 322 normalna, Patrz: krzywa dzwonowa krzy(cid:276)owanie, 256, 258, 267, 308 k-(cid:264)rednia, 62, 183 Skorowidz (cid:95) 325 Kup książkęPoleć książkę L Multilayer Perceptron, Patrz: MLP mutacja, 113, 256, 258, 265, 308 P Last.fm, 24 LIBSVM, 225, 226, 295 linia najlepszego dopasowania, 32 podzia(cid:228)u, 212, 216, 219, 221, 223, 224, 292 lista, 15 logika indukcyjna, 25 M macierz, 240 aktualizacji, 244 artyku(cid:228)ów, 241, 244 wy(cid:264)wietlanie, 247 danych, Patrz: macierz artyku(cid:228)ów faktoryzacja nieujemna, 50, 240, 241, 242, 243, 249, 251, 305, 306 mno(cid:276)enie, 240, 243, 305 obserwacji, 251 transpozycja, 241, 243 wag, 241, 242, 243, 305 w(cid:228)a(cid:264)ciwo(cid:264)ci, 241, 243, 305 wy(cid:264)wietlanie, 246, 252 maksimum lokalne, 271 mapa samoorganizuj(cid:241)ca si(cid:246), 50 maszyna wektorów no(cid:264)nych, 50, 181, 209, 223, 224, 225, 226, 231, 292 wady, 295 zalety, 295 matplotlib, 315 metoda Fishera, 142, 145 k-najbli(cid:276)szych s(cid:241)siadów, Patrz: kNN modyfikowania rozwi(cid:241)za(cid:254), 113 najwi(cid:246)kszego wzrostu, 109 oparta na wektorach i iloczynach skalarnych, 214 metryka cz(cid:246)sto(cid:264)ci wyrazów, 84, 85, 86 miara MLP, 92 model odleg(cid:228)o(cid:264)ci, 302 podobie(cid:254)stwa, 29, 31, 32, 33, 35, 44, 54, 319 stopnia niejednorodno(cid:264)ci, 320 wa(cid:276)ona, 34, 186, 189 my(cid:264)lowy, 23 przewiduj(cid:241)cy ceny, 181, 186, 190, 191, 192, 193, 195, 196, 198, 205, 206, 207 326 (cid:95) Skorowidz N nawigowanie, Patrz: przeszukiwanie Netflix, 21, 24 niejednorodno(cid:264)(cid:232) Giniego, 162, 163, 320 NMF, Patrz: macierz faktoryzacja nieujemna Non-Negative Matrix Factorization, Patrz: macierz faktoryzacja nieujemna NumPy, 242, 314 O ocena, 83, 88 cz(cid:246)sto(cid:264)ci wyst(cid:246)powania wyrazów, 83 liczbowa, 84 lokalizacja w dokumencie, 83 normalizacja, 84 odleg(cid:228)o(cid:264)(cid:232) mi(cid:246)dzy wyrazami, 83 odleg(cid:228)o(cid:264)(cid:232) euklidesowa, 29, 33, 35, 54, 184, 317 Manhattan, 33 mi(cid:246)dzy wyrazami, 83 odno(cid:264)nik zewn(cid:246)trzny, 82 optymalizacja, 103, 122, 125, 130, 307, 309 algorytm genetyczny, Patrz: algorytm genetyczny funkcja kosztu, Patrz: funkcja kosztu (cid:228)a(cid:254)cucha dostaw, 26 metoda najwi(cid:246)kszego wzrostu, Patrz: metoda najwi(cid:246)kszego wzrostu podró(cid:276)y grupy osób, 104, 117, 122 presja ewolucyjna, Patrz: presja ewolucyjna reprezentowanie rozwi(cid:241)zania, 105, 123, 125, 126, 130 stochastyczna, 103 wyszukiwanie losowe, Patrz: wyszukiwanie losowe wy(cid:276)arzanie symulowane, Patrz: wy(cid:276)arzanie symulowane Page Larry, 88 PageRank, 23, 24, 88, 89 pakiet minidom, 118 Pandora, 24 plik HTML, 79 poczty elektronicznej filtrowanie, 23 populacja, Patrz: generacja Porter Stemmer, 79 prawdopodobie(cid:254)stwo, 319 g(cid:246)sto(cid:264)(cid:232), 196, 198, 322 skumulowane, 198 warunkowe, 320 presja ewolucyjna, 256 problem koktajlowy, 233 program krzy(cid:276)owanie, Patrz: krzy(cid:276)owanie miara sukcesu, 264, 269 mutacja, Patrz: mutacja reprezentacja drzewa, Patrz: drzewo programowanie funkcyjne, 14 genetyczne, 116, 255, 256, 257 funkcje, 276 gra, 272, 274, 275 pami(cid:246)(cid:232), 277 program, Patrz: program ranking programów, 271 (cid:264)rodowisko, 269, 277 test, 263, 264 obiektowe, 14 proceduralne, 14 przeszukiwanie, 73, 75, 80, 81, 83, 84, 85, 86, 87 przewidywanie liczbowe, 181 przyrost informacji, 164 punkt (cid:264)redniej, 213 pysqlite, 313 Python, 14, 15 Python Imaging Library, Patrz: biblioteka PIL R regresja, 24 regu(cid:228)a aktualizowania multiplikatywnego, 244 rekomendacja, 27, 36 odno(cid:264)ników, 38, 41 s(cid:241)siadów, 41 tworzenie, 43 Kup książkęPoleć książkę rynek finansowy, 22, 249, 250 wolumen obrotów, 249, 250 kontraktów terminowych, 22 prognostyczny, 25 S serwis randkowy, 25, 176, 209 sie(cid:232) neuronowa, 23, 25, 49, 74, 92, 157, 158, 288, 291 definicja, 93 funkcja sigmoidalna, 96 funkcja tangensa hiperbolicznego, 95 neuron, Patrz: sie(cid:232) neuronowa w(cid:246)ze(cid:228) perceptronu wielowarstwowego, Patrz: MLP sztuczna, 92, 100, 153 (cid:264)ledz(cid:241)ca klikni(cid:246)cia, 92 uczenie, 93, 99, 290 wady, 292 warstwa ukryta, Patrz: warstwa ukryta w(cid:246)ze(cid:228), 92, 94 zalety, 292 skalowanie wielowymiarowe, 68, 303, 304 s(cid:228)ownik, 15, 39, 40 identyfikatorów adresów URL, 84 ocen, 84 zagnie(cid:276)d(cid:276)ony, 28 spam, 23, 133 filtrowanie, 24, 133 (cid:228)(cid:241)czenie prawdopodobie(cid:254)stw, 139, 144 obliczanie prawdopodobie(cid:254)stwa, 137, 138, 139, 140, 141, 142 oparte na regu(cid:228)ach, 133 uczenie si(cid:246), 134, 135, 138, 139, 140, 142, 146, 147 klasyfikator, Patrz: klasyfikator WordPress, 152 SpamBayes, 142 strona internetowa, 75 ocena, Patrz: ocena Support Vector Machine, Patrz: maszyna wektorów no(cid:264)nych SVM, Patrz: maszyna wektorów no(cid:264)nych system rekomendacji, 24 (cid:315) (cid:264)rednia punkt, Patrz: punkt (cid:264)redniej wa(cid:276)ona, 189, 318 (cid:264)wiadomo(cid:264)(cid:232) zbiorowa, 22 T tabela dokumentów, 73, 78 indeks, 94 tangens hiperboliczny, Patrz: funkcja tangensa hiperbolicznego Tanimoto wspó(cid:228)czynnik, Patrz: wspó(cid:228)czynnik Tanimoto Tapestry, 28 technika nienadzorowana, Patrz: uczenie nienadzorowane tekst odno(cid:264)ników, 91 transformacja wielomianowa, 293 trik j(cid:241)drowy, 221, 224, 293, 294 twierdzenie Bayesa, 140 U uczenie maszynowe, 14, 16, 23, 25, 159 grupowanie, 26 ograniczenia, 24 nadzorowane, 49, 153, 233, 238 nienadzorowane, 50, 233, 299, 302 za pomoc(cid:241) drzew decyzyjnych, Patrz: drzewo decyzyjne Universal Feed Parser, 51, 234, 311 W walidacja krzy(cid:276)owa, 189, 206 wariancja, 321 warstwa ukryta, 92, 94 zapyta(cid:254), 92 wektor, 214, 221, 322 wiadomo(cid:264)(cid:232) e-mail, Patrz: e-mail wiersz polece(cid:254), 14 zach(cid:246)ty, 14 Wikipedia, 22 witryna spo(cid:228)eczno(cid:264)ciowa, 64, 316 wizualizacja sieci, 125 wolumen obrotów, 249, 250 WordPress, 152 wspó(cid:228)czynnik Jaccarda, 33 korelacji Pearsona, Patrz: korelacja Pearsona Tanimoto, 66, 319 t(cid:228)umienia, 88 wtyczka SpamBayes, Patrz: SpamBayes wykres punktowy, 211 wyra(cid:276)enie listowe, 15, 34 wyszukiwanie losowe, 108, 109 pe(cid:228)notekstowe, 73 wyszukiwarka, 88 Kayak, Patrz: Kayak pe(cid:228)notekstowa, 73 rejestrowanie klikni(cid:246)(cid:232), 91 wy(cid:276)arzanie symulowane, 111, 128, 244, 308 Xerox PARC, 28 XML, 14, 51 X Y Yahoo! Finance, 249, 250 Z zak(cid:228)adka, 38 zapytanie klasyfikowanie, 74 zbiór testowy, 189 ucz(cid:241)cy, 189 zmiennych heterogenicznych, 191 nieistotnych, 192, 193 zbiór danych budowanie, 40, 42 MovieLens, 45 Zebo, 64, 65 Zillow, 173 zmienna heterogeniczna, 191 nieistotna, 192, 193, 297 wzajemna zale(cid:276)no(cid:264)(cid:232), 211 znacznik, 42 zupa, 64 Skorowidz (cid:95) 327 Kup książkęPoleć książkę
Pobierz darmowy fragment (pdf)

Gdzie kupić całą publikację:

Nowe usługi 2.0. Przewodnik po analizie zbiorów danych
Autor:

Opinie na temat publikacji:


Inne popularne pozycje z tej kategorii:


Czytaj również:


Prowadzisz stronę lub blog? Wstaw link do fragmentu tej książki i współpracuj z Cyfroteką: