Cyfroteka.pl

klikaj i czytaj online

Cyfro
Czytomierz
01512 052887 16372270 na godz. na dobę w sumie
Badanie danych. Raport z pierwszej linii działań - ebook/pdf
Badanie danych. Raport z pierwszej linii działań - ebook/pdf
Autor: , Liczba stron: 320
Wydawca: Helion Język publikacji: polski
ISBN: 978-83-246-9633-8 Data wydania:
Lektor:
Kategoria: ebooki >> komputery i informatyka >> biznes it >> inne
Porównaj ceny (książka, ebook, audiobook).

Unikalne wprowadzenie do nauki o danych!

W dzisiejszych czasach najcenniejszym dobrem jest informacja. Ogromne ilości danych są przechowywane w przepastnych bazach danych, a kluczem do sukcesu jest ich umiejętna analiza i wyciąganie wniosków. To dynamicznie rozwijająca się dziedzina wiedzy, w której do tej pory brakowało solidnych podręczników, pozwalających na dogłębne poznanie tego obszaru. Na szczęście to się zmieniło!

Dzięki tej książce:

Wyciągnij wartościowe wnioski z posiadanych informacji!

Znajdź podobne książki Ostatnio czytane w tej kategorii

Darmowy fragment publikacji:

Tytuł oryginału: Doing Data Science: Straight Talk from the Frontline Tłumaczenie: Zdzisław Płoski ISBN: 978-83-246-9626-0 © 2015 Helion S.A. Authorized Polish translation of the English edition of Doing Data Science, ISBN 9781449358655 © 2014 Cathy O’Neil and Rachel Schutt. This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all rights to publish and sell the same. All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from the Publisher. Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną, fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje naruszenie praw autorskich niniejszej publikacji. Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich właścicieli. Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie ponoszą również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce. Wydawnictwo HELION ul. Kościuszki 1c, 44-100 GLIWICE tel. 32 231 22 19, 32 230 98 63 e-mail: helion@helion.pl WWW: http://helion.pl (księgarnia internetowa, katalog książek) Drogi Czytelniku! Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres http://helion.pl/user/opinie/badada Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję. Printed in Poland. • Kup książkę • Poleć książkę • Oceń książkę • Księgarnia internetowa • Lubię to! » Nasza społeczność Spis tre(cid:316)ci Przedmowa ...............................................................................................................................9 Rozdzia(cid:293) 1. Wprowadzenie: czym jest nauka o danych? ...................................................... 19 19 21 22 23 27 28 29 Wielkie dane i szum wokó(cid:228) badania danych Pokonywanie szumu Dlaczego teraz? Obecny horyzont (z domieszk(cid:241) historii) Profil nauki o danych Eksperyment my(cid:264)lowy — metadefinicja Kim zatem jest badacz danych? Rozdzia(cid:293) 2. Wnioskowanie statystyczne, eksploracyjna analiza danych i proces badania danych .......................................................33 33 46 51 54 55 My(cid:264)lenie statystyczne w epoce wielkich danych Eksploracyjna analiza danych Proces badania danych Eksperyment my(cid:264)lowy: jak zasymulowa(cid:232) chaos? Studium przypadku: RealDirect Rozdzia(cid:293) 3. Algorytmy ............................................................................................................ 61 62 63 88 92 93 Algorytmy uczenia maszynowego Trzy algorytmy podstawowe Zadanie: podstawowe algorytmy uczenia maszynowego Podsumowuj(cid:241)c to wszystko Eksperyment my(cid:264)lowy — automatyczny statystyk Rozdzia(cid:293) 4. Filtry spamu, naiwny Bayes i obróbka danych ..................................................95 95 99 103 Eksperyment my(cid:264)lowy — nauczanie przez przyk(cid:228)ad Naiwna metoda Bayesa Zróbmy to z polotem — wyg(cid:228)adzanie metod(cid:241) Laplace’a 5 Kup książkęPoleć książkę Porównanie naiwnej metody Bayesa z k-NN Przyk(cid:228)adowy kod w bashu Skrobi(cid:241)c po Sieci — interfejsy API i inne narz(cid:246)dzia 104 105 106 Rozdzia(cid:293) 5. Regresja logistyczna .......................................................................................... 111 112 113 115 124 Eksperymenty my(cid:264)lowe Klasyfikatory Przypadek regresji logistycznej w M6D Zadanie z Media6Degrees Rozdzia(cid:293) 6. Znaczniki czasu i modelowanie finansowe ..................................................... 129 129 131 136 136 137 150 Kyle Teague i GetBlue Znaczniki czasu Cathy O’Neil Eksperyment my(cid:264)lowy Modelowanie finansowe Zadanie: GetGlue i zdarzenia opatrzone znacznikami czasu Rozdzia(cid:293) 7. Wydobywanie znacze(cid:295) z danych ..................................................................... 153 153 156 159 161 176 William Cukierski Model Kaggle Eksperyment my(cid:264)lowy: jakie s(cid:241) etyczne nast(cid:246)pstwa Robo-Gradera? Wybór cech David Huffaker: hybrydowe podej(cid:264)cie Google do bada(cid:254) spo(cid:228)ecznych Rozdzia(cid:293) 8. Doradzarki (cid:650) budowanie na styku z u(cid:348)ytkownikiem produktu danych na miar(cid:253) ....................................................................................................181 182 192 192 Doradzarka z prawdziwego zdarzenia Eksperyment my(cid:264)lowy (cid:650) b(cid:241)belki filtrowania Zadanie: zbuduj w(cid:228)asn(cid:241) doradzark(cid:246) Rozdzia(cid:293) 9. Wizualizacja danych i wykrywanie oszustw ................................................... 195 195 197 199 202 209 219 220 220 Historia wizualizacji danych Czym jest nauka o danych? Nowym rozdaniem? Przyk(cid:228)adowe projekty wizualizacji danych Marka projekty wizualizacji danych Nauka o danych i ryzyko Wizualizacja danych w Square Eksperyment my(cid:264)lowy Iana Wizualizacja danych dla takich jak my 6 (cid:95) Spis tre(cid:316)ci Kup książkęPoleć książkę Rozdzia(cid:293) 10. Sieci spo(cid:293)eczne i dziennikarstwo danych .......................................................223 223 225 226 228 229 232 236 Analiza sieci spo(cid:228)ecznych w Morningside Analytics Analiza sieci spo(cid:228)ecznych Terminologia z obszaru sieci spo(cid:228)ecznych Eksperyment my(cid:264)lowy Metody analityczne w Morningside Szersze t(cid:228)o statystyczne analizy sieci spo(cid:228)ecznych Dziennikarstwo danych Rozdzia(cid:293) 11. Przyczynowo(cid:316)(cid:235) .................................................................................................239 240 242 243 245 247 252 Korelacja nie implikuje przyczynowo(cid:264)ci Starania witryny OK Cupid Z(cid:228)oty standard — losowe próby kliniczne Testy A/B Z braku czego(cid:264) lepszego: badania obserwacyjne Trzy zalecenia Rozdzia(cid:293) 12. Epidemiologia ..................................................................................................253 253 254 254 255 256 258 259 263 Wykszta(cid:228)cenie i kariera zawodowa Madigana Eksperyment my(cid:264)lowy Wspó(cid:228)czesna statystyka akademicka Literatura medyczna i badania obserwacyjne Stratyfikacja nie rozwi(cid:241)zuje problemu czynników zaburzaj(cid:241)cych Czy jest lepsze wyj(cid:264)cie? Eksperyment badawczy (partnerstwo w wynikach obserwacji medycznych) Finalny eksperyment my(cid:264)lowy Rozdzia(cid:293) 13. Wnioski z konkursów danych: wycieki danych i ocenianie modelu ..............265 265 267 268 268 273 273 278 278 279 Profil Claudii jako badaczki danych Zawody w wydobywaniu danych Jak by(cid:232) dobrym modelarzem Wyciek danych Jak unika(cid:232) wycieków Ocenianie modeli Wybór algorytmu Przyk(cid:228)ad ko(cid:254)cowy Przemy(cid:264)lenia na po(cid:276)egnanie Rozdzia(cid:293) 14. In(cid:348)ynieria danych — MapReduce, Pregel i Hadoop ....................................... 281 282 282 283 O Davidzie Crawshaw Eksperyment my(cid:264)lowy MapReduce Spis tre(cid:316)ci (cid:95) 7 Kup książkęPoleć książkę Problem cz(cid:246)sto(cid:264)ci s(cid:228)ów Inne przyk(cid:228)ady u(cid:276)ycia systemu MapReduce Pregel O Joshu Willsie Eksperyment my(cid:264)lowy Gdy si(cid:246) jest badaczem danych Interludium ekonomiczne — Hadoop Wracaj(cid:241)c do Josha — tok pracy Jak zatem zacz(cid:241)(cid:232) z Hadoopem? 284 288 289 289 290 290 291 292 293 Rozdzia(cid:293) 15. G(cid:293)os studentów ...............................................................................................295 295 296 298 299 301 301 Proces my(cid:264)lowy Ju(cid:276) nie naiwny Pomocne d(cid:228)onie Twoje koszty mog(cid:241) by(cid:232) ró(cid:276)ne Tunele spinaj(cid:241)ce Z naszych prac Rozdzia(cid:293) 16. Nast(cid:253)pna generacja badaczy danych, arogancja i etyka ...............................303 303 303 306 308 313 Co zosta(cid:228)o zrobione? Czym jest (spytajmy raz jeszcze!) nauka o danych? Jacy s(cid:241) badacze danych nast(cid:246)pnej generacji? Jak by(cid:232) etycznym badaczem danych Rada dotycz(cid:241)ca kariery Skorowidz ................................................................................................................. 315 8 (cid:95) Spis tre(cid:316)ci Kup książkęPoleć książkę ROZDZIA(cid:292) 10. Sieci spo(cid:293)eczne1 i dziennikarstwo danych W tym rozdziale zajmiemy si(cid:246) dwoma tematami, które nabra(cid:228)y szczególnej aktualno(cid:264)ci na przestrzeni 5 – 10 ostatnich lat: sieciami spo(cid:228)eczno(cid:264)ciowymi i dziennikarstwem danych. Sieci spo(cid:228)eczne (niekoniecznie tylko te online) s(cid:241) przedmiotem studiów w instytutach socjologii od dziesi(cid:246)cioleci, podobnie jak ich odpowiednik w instytutach informatyki, matematyki i staty- styki — teoria grafów. Jednak(cid:276)e przez pojawienie si(cid:246) sieci spo(cid:228)ecznych online (sieci spo(cid:228)ecz- no(cid:264)ciowych), takich jak Facebook, LinkedIn, Twitter i Google+, dysponujemy obecnie nowym, bogatym (cid:274)ród(cid:228)em danych, które otwiera wiele problemów badawczych, zarówno z socjolo- gicznego, jak i ilo(cid:264)ciowego lub technicznego punktu widzenia. Najpierw us(cid:228)yszymy o tym, jak pewna firma, Morningside Analytics, wizualizuje dane w sie- ciach spo(cid:228)eczno(cid:264)ciowych i odnajduje w nich znaczenia, oraz poznamy pewne aspekty teorii sieci spo(cid:228)eczno(cid:264)ciowych. Potem przyjrzymy si(cid:246) konstruowaniu opowie(cid:264)ci, które da si(cid:246) wy- wie(cid:264)(cid:232) z danych powstaj(cid:241)cych w sieciach spo(cid:228)eczno(cid:264)ciowych, co stanowi odmian(cid:246) dziennikarstwa danych. Rozwa(cid:276)anie profilów badaczy danych, mieszanki matematyki, statystyki, komunika- cji, wizualizacji i programowania wymaganej do uprawiania nauki o danych lub dziennikarstwa danych — i w tym wypadku formu(cid:228)a genów jest odpowiedni(cid:241) analogi(cid:241) — jest nieco od- mienne, lecz zasadnicze umiej(cid:246)tno(cid:264)ci s(cid:241) takie same. W centrum obu znajduje si(cid:246) zdolno(cid:264)(cid:232) do stawiania dobrych pyta(cid:254), odpowiadania na nie za pomoc(cid:241) danych i komunikowania swoich odkry(cid:232). Maj(cid:241)c to na uwadze, zapoznamy si(cid:246) pokrótce z dziennikarstwem danych z perspektywy Jona Brunera, redaktora wydawnictwa O’Reilly. Analiza sieci spo(cid:293)ecznych w Morningside Analytics Pierwszym wspó(cid:228)autorem tego rozdzia(cid:228)u jest John Kelly z Morningside Analytics, który przyby(cid:228), aby opowiedzie(cid:232) nam o analizie sieci. 1 Angielski termin social networks ma dwie interpretacje w j(cid:246)zyku polskim: sieci spo(cid:228)eczne (szersza) i sieci spo(cid:228)eczno(cid:264)ciowe (w(cid:246)(cid:276)sza, u(cid:276)ywana na okre(cid:264)lenie sieci spo(cid:228)ecznych zawi(cid:241)zuj(cid:241)cych si(cid:246) i istniej(cid:241)cych w Internecie, w oryginale nazywane online social networks); dalej stosujemy oba terminy, zale(cid:276)nie od kontekstu — przyp. t(cid:228)um. 223 Kup książkęPoleć książkę Kelly ma cztery dyplomy z Columbia University: rozpocz(cid:241)(cid:228) od stopnia BA uzyskanego w 1990 roku w Columbia College, nast(cid:246)pnie uzyska(cid:228) tytu(cid:228)y magistra i MPhila2 oraz obroni(cid:228) doktorat w School of Journalism, gdzie skoncentrowa(cid:228) si(cid:246) na socjologii sieci i statystyce w na- ukach politycznych. Sp(cid:246)dzi(cid:228) równie(cid:276) kilka semestrów w Uniwersytecie Stanforda, ucz(cid:241)c si(cid:246) projektowania przegl(cid:241)dów, teorii gier i innych przedmiotów zwi(cid:241)zanych z analiz(cid:241) ilo(cid:264)ciow(cid:241) (ang. quanty stuff). Prac(cid:246) magistersk(cid:241) napisa(cid:228) wraz z Markiem Smithem3 z Microsoftu; jej temat dotyczy(cid:228) ewolucji debat politycznych jako sieci. Po uko(cid:254)czeniu college’u i przed studiami podyplomowymi Kelly zajmowa(cid:228) si(cid:246) sztuk(cid:241), wykorzystuj(cid:241)c komputery do projektowania d(cid:274)wi(cid:246)ków. Sp(cid:246)dzi(cid:228) trzy lata jako kierownik mediów cyfrowych w Columbia School of the Arts. Jest równie(cid:276) programist(cid:241): nauczy(cid:228) si(cid:246) Perla i Pythona, b(cid:246)d(cid:241)c przez rok w Wietnamie ze swoj(cid:241) (cid:276)on(cid:241). Kelly uwa(cid:276)a matematyk(cid:246), statystyk(cid:246) i informatyk(cid:246) ((cid:228)(cid:241)cznie z uczeniem maszyn) za narz(cid:246)dzia, którymi musi si(cid:246) pos(cid:228)ugiwa(cid:232) i które musi dobrze zna(cid:232), aby robi(cid:232) to, czym naprawd(cid:246) chce si(cid:246) zajmowa(cid:232). Niczym szef kuchni, potrzebuje dobrych garnków i patelni oraz ostrych no(cid:276)y, rze- czywistym produktem s(cid:241) natomiast potrawy. Co zatem serwuje w swojej kuchni? Kelly chce zrozumie(cid:232), jak ludzie si(cid:246) zwo(cid:228)uj(cid:241), i kiedy to si(cid:246) stanie, jaki jest ich wp(cid:228)yw na polityk(cid:246) i zasady wspó(cid:228)(cid:276)ycia spo(cid:228)ecznego. Klientami jego firmy, Morningside Analytics, s(cid:241) think tanki4 i organizacje polityczne. Chc(cid:241) one zazwyczaj wiedzie(cid:232), w jaki sposób media spo(cid:228)eczno(cid:264)ciowe oddzia(cid:228)uj(cid:241) na polityk(cid:246) i j(cid:241) kreuj(cid:241). Keely zarabia pieni(cid:241)dze na komunikacji i prezentacjach — wizualizacje s(cid:241) nieod(cid:228)(cid:241)czn(cid:241) cz(cid:246)- (cid:264)ci(cid:241) zarówno specjalistycznych ekspertyz, jak i komunikacji — tote(cid:276) jego kwalifikacje s(cid:241) po- (cid:228)(cid:241)czeniem tworzenia wizualizacji i wyci(cid:241)gania z nich wniosków. Morningside Analytics nie op(cid:228)aca si(cid:246) przecie(cid:276) jedynie odkrywa(cid:232) ciekawych materia(cid:228)ów, firmie zale(cid:276)y na pomaganiu ludziom w ich spo(cid:276)ytkowaniu. Dane przypadek-atrybut a dane sieci spo(cid:293)eczno(cid:316)ciowej Kelly nie modeluje danych w standardowy sposób, za pomoc(cid:241) danych postaci przypadek- atrybut. Przypadek-atrybut odnosi si(cid:246) do sytuacji, kiedy masz do czynienia z lud(cid:274)mi, którzy zasilaj(cid:241) modele ró(cid:276)nymi „przypadkami”, daj(cid:241)cymi si(cid:246) odnie(cid:264)(cid:232) do ludzi lub zdarze(cid:254), przy czym i ludzie, i zdarzenia maj(cid:241) ró(cid:276)ne „atrybuty” dotycz(cid:241)ce na przyk(cid:228)ad wieku lub systemu operacyjnego, lub historii wyszukiwania. Modelowanie w uk(cid:228)adzie przypadek-atrybut si(cid:246)ga lat 30. ubieg(cid:228)ego wieku i wczesnych bada(cid:254) rynku, wkrótce zastosowano je równie(cid:276) w marketingu, a tak(cid:276)e w polityce. Kelly podkre(cid:264)la istnienie przemo(cid:276)nej sk(cid:228)onno(cid:264)ci do modelowania z danymi przypadek-atrybut. Mo(cid:276)liwym jej wyja(cid:264)nieniem jest (cid:228)atwo(cid:264)(cid:232) przechowywania danych przypadek-atrybut w bazach danych lub (cid:228)atwo(cid:264)(cid:232) gromadzenia takich danych. Tak czy owak, Kelly uwa(cid:276)a, (cid:276)e wskutek tego gubi si(cid:246) wiele zagadnie(cid:254), na które poszukujemy odpowiedzi. 2 Ang. Master of Philosophy; ameryka(cid:254)ski tytu(cid:228) uniwersytecki — przyp. t(cid:228)um. 3 Zob. http://videolectures.net/marc_smith. 4 Z za(cid:228)o(cid:276)enia niezale(cid:276)ne grupy (komitety) doradcze — przyp. t(cid:228)um. 224 (cid:95) Rozdzia(cid:293) 10. Sieci spo(cid:293)eczne i dziennikarstwo danych Kup książkęPoleć książkę Wspomnia(cid:228) Paula Lazarsfelda i Elihu Katza, dwóch pionierskich socjologów, którzy przybyli z Europy i rozwin(cid:246)li dziedzin(cid:246) analizy sieci spo(cid:228)ecznych (ang. social network analysis), podej(cid:264)cie oparte nie tylko na indywiduach, lecz tak(cid:276)e na relacjach mi(cid:246)dzy nimi. Aby nabra(cid:232) wyobra(cid:276)enia, dlaczego analiza sieci czasami jest wa(cid:276)niejsza od analizy wed(cid:228)ug schematu przypadek-atrybut, zastanówmy si(cid:246) nad nast(cid:246)puj(cid:241)cym przyk(cid:228)adem. Rz(cid:241)d federal- ny sfinansowa(cid:228) ankietowanie ludzi w Afganistanie. Chodzi(cid:228)o o to, (cid:276)eby si(cid:246) dowiedzie(cid:232), czego chc(cid:241) mieszka(cid:254)cy, aby przewidzie(cid:232), co stanie si(cid:246) w przysz(cid:228)o(cid:264)ci. Jednak, jak wykazuje Kelly, to, co si(cid:246) wydarzy, nie jest prost(cid:241) funkcj(cid:241) indywidualnych postaw; jest to natomiast pytanie o tych, którzy maj(cid:241) w(cid:228)adz(cid:246), i to ich my(cid:264)lenie trzeba bra(cid:232) pod uwag(cid:246). Wyobra(cid:274)my sobie równie(cid:276), (cid:276)e cofamy si(cid:246) w czasie i wykonujemy naukowy sonda(cid:276) obywateli Europy w 1750 roku, aby okre(cid:264)li(cid:232) przysz(cid:228)(cid:241) polityk(cid:246). Gdyby(cid:264)my si(cid:246) znali na rzeczy, intereso- wa(cid:228)oby nas, kto kogo po(cid:264)lubi(cid:228) w rodzinach królewskich. W pewnym sensie obecne skoncentrowanie na danych przypadek-atrybut jest problemem poszukiwania czego(cid:264) „pod latarni(cid:241)” — rodzajem odchylenia obserwacyjnego sprowadzonego do sytuacji, w której ludzie zwykli post(cid:246)powa(cid:232) w pewien (zazwyczaj (cid:228)atwiejszy) sposób i trzy- maj(cid:241) si(cid:246) go nawet wówczas, gdy nie dostaj(cid:241) odpowiedzi na nurtuj(cid:241)ce ich pytanie. Kelly dowodzi, (cid:276)e (cid:264)wiat jest sieci(cid:241) znacznie, ale to znacznie bardziej skomplikowan(cid:241) ni(cid:276) porcja przypadków z atrybutami. Je(cid:276)eli rozumiesz tylko zachowanie jednostek, jak masz powi(cid:241)za(cid:232) sprawy w ca(cid:228)o(cid:264)(cid:232)? Analiza sieci spo(cid:293)ecznych Analiza sieci spo(cid:228)ecznych wywodzi si(cid:246) z dwóch (cid:274)róde(cid:228): teorii grafów, w której Euler rozwi(cid:241)za(cid:228) problem siedmiu mostów w Królewcu, i socjometrii, zapocz(cid:241)tkowanej przez Jacoba Moreno w latach 70. XX wieku, w czasie kiedy wczesne komputery sprosta(cid:228)y wykonywaniu wielko- skalowych oblicze(cid:254) na du(cid:276)ych zbiorach danych. Analiza sieci spo(cid:228)ecznych zosta(cid:228)a zainicjowana przez Harrisona White’a, emerytowanego profesora Columbia University, w tym samym czasie co prace innego socjologa z tej uczelni, Roberta Mertona. Ich pomys(cid:228) zasadza(cid:228) si(cid:246) na za(cid:228)o(cid:276)eniu, (cid:276)e dzia(cid:228)ania ludzi musz(cid:241) pozostawa(cid:232) w zwi(cid:241)zku z ich cechami, lecz aby naprawd(cid:246) je zrozumie(cid:232), trzeba równie(cid:276) przyjrze(cid:232) si(cid:246) sieciom (tzn. systemom), które umo(cid:276)liwiaj(cid:241) im dane dzia(cid:228)ania. Jak przenosimy ten pomys(cid:228) do naszych modeli? Kelly chce, aby(cid:264)my rozwa(cid:276)yli to, co on na- zywa mikro kontra makro, czyli podzia(cid:228) na to, co indywidualne, i to, co ogólnoustrojowe: w jaki sposób przerzuci(cid:232) most nad tymi podzia(cid:228)ami? Czy raczej: jak (cid:228)(cid:241)czy(cid:232) te podzia(cid:228)y w ró(cid:276)nych kontekstach? Na przyk(cid:228)ad w USA mamy formalne mechanizmy budowania pomostów mi(cid:246)dzy podzia(cid:228)em na mikro i makro, mianowicie rynki w przypadku podzia(cid:228)u „kupowanie rzeczy” i wybory w przypadku podzia(cid:228)ów politycznych. Jednak wi(cid:246)kszo(cid:264)(cid:232) (cid:264)wiata nie rozporz(cid:241)dza tymi formal- nymi mechanizmami, cho(cid:232) cz(cid:246)sto maj(cid:241) tam fikcyjne cienie tych rozwi(cid:241)za(cid:254). W wi(cid:246)kszo(cid:264)ci wy- padków musimy dowiedzie(cid:232) si(cid:246) dostatecznie du(cid:276)o o faktycznej sieci spo(cid:228)ecznej, aby wiedzie(cid:232), kto sprawuje [w niej] w(cid:228)adz(cid:246) i ma wp(cid:228)yw na zmiany. Analiza sieci spo(cid:293)ecznych (cid:95) 225 Kup książkęPoleć książkę Terminologia z obszaru sieci spo(cid:293)ecznych Podstawowe jednostki sieci s(cid:241) nazywane aktorami lub w(cid:246)z(cid:228)ami (ang. actors, nodes). Mog(cid:241) to by(cid:232) ludzie lub witryny internetowe, lub nawet dowolne „rzeczy”, które bierzesz pod uwag(cid:246); obiekty te s(cid:241) cz(cid:246)sto reprezentowane przez jedn(cid:241) kropk(cid:246) w wizualizacji. Zale(cid:276)no(cid:264)ci mi(cid:246)dzy aktorami s(cid:241) okre(cid:264)lane jako powi(cid:241)zania (ang. relational ties) lub kraw(cid:246)dzie (ang. edges). Na przyk(cid:228)ad to, (cid:276)e si(cid:246) kogo(cid:264) lubi lub jest znajomym, mo(cid:276)e by(cid:232) uwidocznione za pomoc(cid:241) kraw(cid:246)dzi. Pary aktorów okre(cid:264)lamy jako diady (ang. dyads), a trójki — jako triady (ang. triads). Na przyk(cid:228)ad, je(cid:264)li mamy kraw(cid:246)d(cid:274) mi(cid:246)dzy w(cid:246)z(cid:228)em A i w(cid:246)z(cid:228)em B oraz kraw(cid:246)d(cid:274) mi(cid:246)dzy w(cid:246)z(cid:228)ami B i C, to domkni(cid:246)cie triadyczne (ang. triadic closure) oznacza(cid:228)oby istnienie kraw(cid:246)dzi mi(cid:246)dzy w(cid:246)z(cid:228)em A i w(cid:246)z(cid:228)em C. Czasami rozwa(cid:276)amy podgrupy (ang. subgroups), nazywane równie(cid:276) podsieciami (ang. subne- tworks), sk(cid:228)adaj(cid:241)ce si(cid:246) z podzbioru ca(cid:228)ego zbioru aktorów wraz z ich powi(cid:241)zaniami. Oczywi- (cid:264)cie oznacza to, (cid:276)e rozwa(cid:276)amy tak(cid:276)e sam(cid:241) grup(cid:246), przez co rozumie si(cid:246) ca(cid:228)(cid:241) „sie(cid:232)”. Zauwa(cid:276)my, (cid:276)e jest to koncepcja stosunkowo prosta w przypadku — powiedzmy — sieci Twittera, lecz staje si(cid:246) bardzo trudna w przypadku „libera(cid:228)ów”. Przez poj(cid:246)cie relacji (ang. relation) rozumiemy na ogó(cid:228) sposób utrzymywania powi(cid:241)za(cid:254) mi(cid:246)- dzy aktorami. Na przyk(cid:228)ad lubienie innej osoby jest relacj(cid:241), lecz jest ni(cid:241) równie(cid:276) zamieszki- wanie z kim(cid:264). Sie(cid:232) spo(cid:228)eczna (ang. social network) jest kolekcj(cid:241) z(cid:228)o(cid:276)on(cid:241) z pewnego zbioru aktorów i relacji. W rzeczywisto(cid:264)ci istnieje kilka ró(cid:276)nych typów sieci spo(cid:228)ecznych. W najprostszym przypadku masz porcj(cid:246) aktorów po(cid:228)(cid:241)czonych wi(cid:246)zami. T(cid:241) konstrukcj(cid:241) mo(cid:276)esz si(cid:246) pos(cid:228)ugiwa(cid:232) do uwi- daczniania grafu Facebooka — dowolne dwie osoby s(cid:241) ze sob(cid:241) zaznajomione albo nie i ka(cid:276)de dwie mog(cid:241) by(cid:232) teoretycznie znajomymi (przyjació(cid:228)mi). W grafach dwudzielnych po(cid:228)(cid:241)czenia istniej(cid:241) tylko mi(cid:246)dzy dwiema formalnie oddzielnymi klasami obiektów. Mo(cid:276)esz wi(cid:246)c mie(cid:232) ludzi z jednej strony i firmy z drugiej i mo(cid:276)esz po(cid:228)(cid:241)czy(cid:232) osob(cid:246) z firm(cid:241), je(cid:264)li nale(cid:276)y ona do zarz(cid:241)du danej firmy. Albo mo(cid:276)esz mie(cid:232) ludzi i rzeczy, które ich potencjalnie interesuj(cid:241), i (cid:228)(cid:241)czy(cid:232) ich z nimi, je(cid:264)li naprawd(cid:246) tak jest. Na koniec s(cid:241) równie(cid:276) sieci ego (ang. ego networks), zazwyczaj formowane jako „cz(cid:246)(cid:264)(cid:232) sieci w otoczeniu jednej osoby”. Mog(cid:228)aby to by(cid:232) na przyk(cid:228)ad „podsie(cid:232) moich znajomych na Facebooku”, którzy w pewnych wypadkach mog(cid:241) zna(cid:232) si(cid:246) tak(cid:276)e mi(cid:246)dzy sob(cid:241). Jak wykazuj(cid:241) badania, lu- dzie o wy(cid:276)szym statusie socjoekonomicznym maj(cid:241) bardziej skomplikowane sieci ego, mo(cid:276)esz wi(cid:246)c wnioskowa(cid:232) o poziomie czyjego(cid:264) statusu spo(cid:228)ecznego, przygl(cid:241)daj(cid:241)c si(cid:246) jego sieci ego. Miary centralno(cid:316)ci Pierwsze pytanie, cz(cid:246)sto zadawane przez ludzi w odniesieniu do sieci spo(cid:228)ecznej, brzmi: kto tutaj jest wa(cid:276)ny? Oczywi(cid:264)cie znaczenia mo(cid:276)na nabra(cid:232) ró(cid:276)nymi sposobami i ró(cid:276)ne definicje, za pomoc(cid:241) których próbuje si(cid:246) uchwyci(cid:232) co(cid:264) takiego jak wa(cid:276)no(cid:264)(cid:232), prowadz(cid:241) do ró(cid:276)nych miar centralno(cid:264)ci (ang. centrality measures). Podamy tu kilka typowych przyk(cid:228)adów. Po pierwsze, istnieje poj(cid:246)cie stopnia (ang. degree). Bierze si(cid:246) tu w rachub(cid:246) liczb(cid:246) osób maj(cid:241)- cych z Tob(cid:241) po(cid:228)(cid:241)czenie. Tak wi(cid:246)c w mowie Facebooka jest to liczba posiadanych przez Ciebie znajomych. 226 (cid:95) Rozdzia(cid:293) 10. Sieci spo(cid:293)eczne i dziennikarstwo danych Kup książkęPoleć książkę Dalej mamy poj(cid:246)cie blisko(cid:264)ci (ang. closeness). Mówi(cid:241)c inaczej, je(cid:264)li jeste(cid:264)cie „bliscy” wszystkim, to powinni(cid:264)cie mie(cid:232) najwy(cid:276)szy wynik blisko(cid:264)ci. Aby wyrazi(cid:232) to (cid:264)ci(cid:264)lej, potrzebujemy poj(cid:246)cia odleg(cid:228)o(cid:264)ci mi(cid:246)dzy w(cid:246)z(cid:228)ami w grafie spójnym (ang. connected graph), co w przypadku sieci znajomych oznacza, (cid:276)e ka(cid:276)da osoba jest po(cid:228)(cid:241)- czona z ka(cid:276)d(cid:241) inn(cid:241) za po(cid:264)rednictwem (cid:228)a(cid:254)cucha wspólnych znajomych. Odleg(cid:228)o(cid:264)(cid:232) mi(cid:246)dzy w(cid:246)z(cid:228)ami x i y, zapisywana jako d(x, y), jest definiowana po prostu jako d(cid:228)ugo(cid:264)(cid:232) najkrótszej (cid:264)cie(cid:276)ki mi(cid:246)dzy dwoma w(cid:246)z(cid:228)ami. Pos(cid:228)uguj(cid:241)c si(cid:246) t(cid:241) notacj(cid:241), mo(cid:276)esz zdefiniowa(cid:232) blisko(cid:264)(cid:232) w(cid:246)- z(cid:228)a x jako sum(cid:246): (cid:166) (cid:16) y,xd2 (cid:11) (cid:12) xC (cid:32) (cid:11) (cid:12) wzi(cid:246)t(cid:241) po wszystkich w(cid:246)z(cid:228)ach y ró(cid:276)nych od x. Istnieje te(cid:276) miara centralno(cid:264)ci zwana wewn(cid:246)trzno(cid:264)ci(cid:241) (umiejscowieniem pomi(cid:246)dzy, ang. betwe- enness), okre(cid:264)laj(cid:241)ca stopie(cid:254), w którym ludzie w Twojej sieci znaj(cid:241) si(cid:246) za po(cid:264)rednictwem Cie- bie lub — nieco precyzyjniej — czy najkrótsze (cid:264)cie(cid:276)ki mi(cid:246)dzy nimi przechodz(cid:241) przez [w(cid:246)ze(cid:228) reprezentuj(cid:241)cy] Ciebie. Pomys(cid:228) jest tutaj taki, (cid:276)e je(cid:264)li masz du(cid:276)(cid:241) miar(cid:246) wewn(cid:246)trzno(cid:264)ci, to in- formacje prawdopodobnie przechodz(cid:241) przez Ciebie. Aby to u(cid:264)ci(cid:264)li(cid:232), dla ka(cid:276)dych dwóch w(cid:246)z(cid:228)ów x i y w tej samej, spójnej cz(cid:246)(cid:264)ci sieci definiujemy (cid:86)x,y jako liczb(cid:246) najkrótszych (cid:264)cie(cid:276)ek mi(cid:246)dzy w(cid:246)z(cid:228)em x i w(cid:246)z(cid:228)em y i (cid:86)x,y(v) jako liczb(cid:246) najkrótszych (cid:264)cie(cid:276)ek mi(cid:246)dzy w(cid:246)z(cid:228)em x i w(cid:246)z(cid:228)em y, które przechodz(cid:241) przez trzeci w(cid:246)ze(cid:228) v. Wówczas miara wewn(cid:246)trzno(cid:264)ci jest zdefiniowana jako suma: (cid:86) vB (cid:11) (cid:12) (cid:166) (cid:86) (cid:32) y,x )v( y,x wzi(cid:246)ta po wszystkich osobnych parach w(cid:246)z(cid:228)ów x i y ró(cid:276)nych od v. Ostatnia miara centralno(cid:264)ci, któr(cid:241) zajmiemy si(cid:246) szczegó(cid:228)owo w podrozdziale „Reprezentacje sieci i centralno(cid:264)(cid:232) warto(cid:264)ci w(cid:228)asnej”, po wprowadzeniu poj(cid:246)cia macierzy incydencji, nosi nazw(cid:246) central- no(cid:264)ci wektora w(cid:228)asnego. Innymi s(cid:228)owy, osoba, która jest popularna wraz z popularnymi dzie(cid:232)mi5, ma du(cid:276)(cid:241) centralno(cid:264)(cid:232) wektora w(cid:228)asnego. Przyk(cid:228)adem takiej miary centralno(cid:264)ci jest PageRank w Google. Bran(cid:348)a miar centralno(cid:316)ci Jest wa(cid:276)ne, aby nie przyjmowa(cid:232) bez zastrze(cid:276)e(cid:254) stosowania poprzednich miar centralno(cid:264)ci. Otó(cid:276) „ludzie od pomiarów” tworz(cid:241) bran(cid:276)(cid:246), w której ka(cid:276)dy próbuje sprzedawa(cid:232) si(cid:246) jako autory- tet. Do(cid:264)wiadczenie mówi nam jednak, (cid:276)e ka(cid:276)da [miara] ma swoje wady i zalety. Przede wszystkim nale(cid:276)y wiedzie(cid:232), (cid:276)e przygl(cid:241)damy si(cid:246) w(cid:228)a(cid:264)ciwej sieci lub podsieci. Na przyk(cid:228)ad, je(cid:264)li poszukujesz bardzo wp(cid:228)ywowego blogera w(cid:264)ród Bractwa Muzu(cid:228)ma(cid:254)skiego, i sporz(cid:241)dzisz list(cid:246) 100 najwi(cid:246)kszych blogerów w pewnym du(cid:276)ym grafie blogerów, po czym, id(cid:241)c od jej szczytu w dó(cid:228), zaczniesz poszukiwa(cid:232) blogera z Bractwa Muzu(cid:228)ma(cid:254)skiego, to nie osi(cid:241)gniesz zamierzonego celu. Znajdziesz kogo(cid:264), kto jest wp(cid:228)ywowy zarówno w du(cid:276)ej sieci, jak i bloguje dla Bractwa Muzu(cid:228)ma(cid:254)skiego, lecz nie b(cid:246)dzie to osoba wp(cid:228)ywowa w(cid:264)ród Braci Muzu(cid:228)ma(cid:254)skich, raczej w(cid:264)ród ponadnarodowych elit w wi(cid:246)kszej sieci. Innymi s(cid:228)owy, musisz mie(cid:232) na uwadze lokalne s(cid:241)siedztwo w grafie. 5 W rozumieniu w(cid:246)z(cid:228)ów w grafie — przyp. t(cid:228)um. Terminologia z obszaru sieci spo(cid:293)ecznych (cid:95) 227 Kup książkęPoleć książkę Inny problem z miarami centralno(cid:264)ci: z do(cid:264)wiadczenia wynika, (cid:276)e ró(cid:276)ne konteksty wymagaj(cid:241) ró(cid:276)nych narz(cid:246)dzi. Co(cid:264) mo(cid:276)e si(cid:246) nadawa(cid:232) do blogów, lecz gdy pracujesz z danymi Twittera, mo(cid:276)e Ci by(cid:232) potrzebne co(cid:264) zupe(cid:228)nie innego. Jedn(cid:241) z przyczyn s(cid:241) ró(cid:276)nice w danych, inn(cid:241) — ró(cid:276)ne sposoby, za pomoc(cid:241) których ludzie graj(cid:241) miarami centralno(cid:264)ci. Na Twitterze na przyk(cid:228)ad ludzie tworz(cid:241) 5000 twitterowych [ro]botów, które pod(cid:241)(cid:276)aj(cid:241) jeden za drugim i za innymi strategicznie wyselekcjonowanymi (prawdziwymi) lud(cid:274)mi, aby sprawia(cid:232), (cid:276)e wygl(cid:241)daj(cid:241) oni na wp(cid:228)ywowych wed(cid:228)ug pewnych miar (by(cid:232) mo(cid:276)e wed(cid:228)ug centralno(cid:264)ci wektora w(cid:228)asnego). Z oczywistych powodów nie jest to trafne; to tylko efekt grania przez kogo(cid:264) miarami. Istniej(cid:241) ju(cid:276) pewne pakiety sieciowe, które potrafi(cid:241) oblicza(cid:232) ró(cid:276)ne, wymienione uprzednio miary centralno(cid:264)ci. Mo(cid:276)na tu wskaza(cid:232) NetworkX6 lub igraph7, je(cid:264)li u(cid:276)ywasz Pythona, lub statnet8 dla R, albo NodeXL9, je(cid:264)li wolisz Excela, a na koniec rzu(cid:232) okiem na maj(cid:241)cy si(cid:246) ukaza(cid:232) pakiet w j(cid:246)zyku C autorstwa Jure’a Leskoveca z Uniwersytetu Stanforda10. Eksperyment my(cid:316)lowy Nale(cid:276)ysz do elity, dobrze op(cid:228)acanego think tanku w DC. Mo(cid:276)esz wynaj(cid:241)(cid:232) ludzi i masz do wydania 10 milionów dolarów. Twoim zadaniem jest do(cid:264)wiadczalne przewidzenie przysz(cid:228)ej politycznej sytuacji w Egipcie. Jakie partie polityczne dojd(cid:241) tam do g(cid:228)osu? Jak Egipt b(cid:246)dzie wygl(cid:241)da(cid:228) za 5, 10 lub 20 lat? Masz dost(cid:246)p tylko do dwóch nast(cid:246)puj(cid:241)cych zbiorów danych dotycz(cid:241)cych wszystkich Egipcjan: sieci facebookowej lub twitterowej, kompletnego zapisu, kto z kim chodzi(cid:228) do szko(cid:228)y, tekstów rozmów telefonicznych ka(cid:276)dej osoby i jej adresu lub danych sieciowych dotycz(cid:241)cych cz(cid:228)onków wszystkich formalnych organizacji politycznych i prywatnych przedsi(cid:246)biorstw. Nim podejmiesz decyzj(cid:246), zwa(cid:276), (cid:276)e rzeczy zmieniaj(cid:241) si(cid:246) z biegiem czasu: ludzie mog(cid:241) wyno- si(cid:232) si(cid:246) z Facebooka, a rozmowy polityczne mog(cid:241) wymaga(cid:232) zawoalowania, je(cid:264)li blogowanie odbywa si(cid:246) zbyt jawnie. Sam Facebook daje mnóstwo informacji, lecz czasami ludzie b(cid:246)d(cid:241) próbowali sta(cid:232) si(cid:246) niewidoczni — by(cid:232) mo(cid:276)e ci sami, którzy pozostaj(cid:241) w sferze Twoich naj- wi(cid:246)kszych zainteresowa(cid:254). Z tego powodu lepsz(cid:241) reprezentacj(cid:241) mog(cid:241) by(cid:232) zapisy telefoniczne. Je(cid:264)li my(cid:264)lisz, (cid:276)e ten scenariusz jest na wyrost, wiedz, (cid:276)e jest on ju(cid:276) realizowany. Na przyk(cid:228)ad niemiecki Siemens sprzeda(cid:228) Iranowi oprogramowanie do monitorowania ich krajowej sieci telefonów komórkowych. W rzeczywisto(cid:264)ci rz(cid:241)dy — mówi(cid:241)c ogólnie — wk(cid:228)adaj(cid:241) wi(cid:246)cej energii w zape(cid:228)nianie tego obszaru swoimi sprzymierze(cid:254)cami, a mniej w jego os(cid:228)abienie: Pakistan wynajmuje Amerykanów, aby blogowali na rzecz Pakistanu, a Rosjanie pomagaj(cid:241) Syryjczykom. Ostatnia uwaga: musisz rozwa(cid:276)y(cid:232) zmian(cid:246) typowego kierunku my(cid:264)lenia. Mnóstwo ludzi za- daje pytanie: czego mo(cid:276)emy si(cid:246) dowiedzie(cid:232) z tych czy innych danych? Pomy(cid:264)l o tym inaczej: co by to znaczy(cid:228)o, móc przewidywa(cid:232) kierunki polityki w spo(cid:228)ecze(cid:254)stwie? I jakie rodzaje danych s(cid:241) Ci potrzebne, aby tego dokona(cid:232)? 6 Zob. http://networkx.github.io. 7 Zob. http://igraph.org/redirect.html. 8 Zob. http://statnet.org. 9 Zob. http://research.microsoft.com/en-us/projects/nodexl. 10 Zob. http://cs.stanford.edu/people/jure. 228 (cid:95) Rozdzia(cid:293) 10. Sieci spo(cid:293)eczne i dziennikarstwo danych Kup książkęPoleć książkę Innymi s(cid:228)owy, najpierw znajd(cid:274) pytania, a potem szukaj danych, które pomog(cid:241) na nie odpo- wiedzie(cid:232). Metody analityczne w Morningside Kelly pokaza(cid:228) nam map(cid:246) sieci 14 najwi(cid:246)kszych (cid:264)wiatowych blogosfer. Aby zrozumie(cid:232) te ry- sunki, wyobra(cid:274) sobie si(cid:228)(cid:246), na przyk(cid:228)ad tak(cid:241) jak wiatr, która wypycha w(cid:246)z(cid:228)y ku brzegom, a jed- nocze(cid:264)nie drug(cid:241) si(cid:228)(cid:246) przeciwstawn(cid:241) — odsy(cid:228)acze (linki) mi(cid:246)dzy blogami — która je spaja. Na rysunku 10.1 pokazano przyk(cid:228)ad arabskiej blogosfery. Rysunek 10.1. Przyk(cid:228)ad arabskiej blogosfery (patrz kolorowa wk(cid:228)adka) Ró(cid:276)ne kolory reprezentuj(cid:241) kraje i skupiska blogów. Rozmiar ka(cid:276)dej kropki wyra(cid:276)a centralno(cid:264)(cid:232) mierzon(cid:241) wed(cid:228)ug stopnia, tj. liczb(cid:246) odsy(cid:228)aczy do innych blogów w sieci. Fizyczna struktura blogosfery mo(cid:276)e da(cid:232) nam do my(cid:264)lenia. Metody analityczne w Morningside (cid:95) 229 Kup książkęPoleć książkę Je(cid:276)eli analizujemy tekst, u(cid:276)ywaj(cid:241)c przetwarzania j(cid:246)zyka naturalnego (ang. natural language processing — NLP), to my(cid:264)lenie o blogowych postach jak o górze lub rzece tekstu powoduje, (cid:276)e dostrzegamy tylko obraz mikro lub makro — tracimy przekaz najwa(cid:276)niejszy. Gubi si(cid:246) analiza sieci spo(cid:228)ecznych (ang. social network analysis — SNA), która jest pomocna w odwzoro- wywaniu i analizowaniu wzorców interakcji. Na przyk(cid:228)ad 12 ró(cid:276)nych blogosfer mi(cid:246)dzynaro- dowych wygl(cid:241)da inaczej. Mo(cid:276)e to nas prowadzi(cid:232) do wniosku, (cid:276)e ró(cid:276)ne spo(cid:228)ecze(cid:254)stwa maj(cid:241) ró(cid:276)ne zainteresowania, co powoduje odmienne wzorce. Dlaczego jednak one si(cid:246) ró(cid:276)ni(cid:241)? W ko(cid:254)cu s(cid:241) reprezentacjami czego(cid:264) wi(cid:246)cej wymiarowego rzutowanego na dwa wymiary. A mo(cid:276)e po prostu zosta(cid:228)y ró(cid:276)nie narysowane? Owszem, lecz mo(cid:276)emy wykona(cid:232) analiz(cid:246) mnóstwa tekstów, która przekonuje, (cid:276)e te obrazy rzeczywi(cid:264)cie co(cid:264) ukazuj(cid:241). Wk(cid:228)adamy wysi(cid:228)ek w jako(cid:264)ciowe interpretowanie tre(cid:264)ci. I tak na przyk(cid:228)ad w blogosferze francuskiej widzimy grono dyskutuj(cid:241)ce o smacznym goto- waniu. W Niemczech spotykamy ró(cid:276)ne grona dyskutuj(cid:241)ce o polityce i rozmaitych zwario- wanych hobby. W blogach angielskich zauwa(cid:276)amy dwa du(cid:276)e skupienia [Cathy/mathbabe wtr(cid:241)ca swoje trzy grosze: porno dla gejów i zwyk(cid:228)e porno?]. Okazuje si(cid:246), (cid:276)e s(cid:241) to blogi kon- serwatystów i libera(cid:228)ów. W Rosji sieci blogowania wykazuj(cid:241) tendencj(cid:246) do wywierania nacisku na pozostawanie w sie- ciach, dlatego widzimy dobrze okre(cid:264)lone, porozdzielane skupienia. Grupowanie tego, co w pobli(cid:276)u (ang. proximity clustering), jest wykonywane za pomoc(cid:241) algo- rytmu Fruchtermana-Reingolda, w którym przebywanie w tym samym s(cid:241)siedztwie oznacza, (cid:276)e Twoi s(cid:241)siedzi s(cid:241) pod(cid:228)(cid:241)czeni do innych s(cid:241)siadów, zatem odzwierciedla ono naprawd(cid:246) zja- wisko wywierania zbiorowego wp(cid:228)ywu. Nast(cid:246)pnie interpretujemy segmenty. Na rysunku 10.2 przedstawiono przyk(cid:228)ad blogów w j(cid:246)zyku angielskim. Jak wizualizacje pomagaj(cid:233) znale(cid:346)(cid:235) (cid:293)awice ryb Ka(cid:276)da z firm zajmuj(cid:241)cych si(cid:246) mediami spo(cid:228)eczno(cid:264)ciowymi czerpie z tego, (cid:276)e albo dysponuje danymi, albo zestawem narz(cid:246)dzi — opatentowanym mechanizmem [sondowania] opinii (ang. sentiment engine) lub czym(cid:264) w tym rodzaju, maszyn(cid:241) do robienia ha(cid:228)asu. B(cid:241)d(cid:274)my jednak (cid:264)wiadomi, (cid:276)e media spo(cid:228)eczno(cid:264)ciowe s(cid:241) w du(cid:276)ym stopniu wytworem organizacji zaintere- sowanych w nadawaniu biegu sprawom, czyli graniem maszyn(cid:241) do robienia ha(cid:228)asu. Aby uwie- rzy(cid:232) w to, co widzisz, musisz trzyma(cid:232) r(cid:246)k(cid:246) na pulsie, to znaczy musisz rozszyfrowa(cid:232) zasady gry, zrozumie(cid:232), na czym ona polega. A to oznacza, (cid:276)e potrzebujesz wizualizacji. Przyk(cid:228)ad. Je(cid:264)li przymierzasz si(cid:246) do wyborów, obejrzyj blogi z mamusiami lub mi(cid:228)o(cid:264)nikami sportu. To b(cid:246)dzie bardziej komunikatywne ni(cid:276) blogi zwolenników, których odpowied(cid:274) ju(cid:276) znasz. Inny przyk(cid:228)ad. Po podzieleniu blogosfery na koszyki Kelly przedstawi(cid:228) nam analiz(cid:246) ró(cid:276)nych typów odsy(cid:228)aczy (linków): do wideonagra(cid:254) zwolenników, jak na przyk(cid:228)ad z przemówieniem Martina Luthera Kinga „I have a dream” oraz profesjonalnego filmu z kampanii Romneya. W przypadku filmu z przemówieniem MLK widzimy jego (cid:276)ywio(cid:228)owe rozsy(cid:228)anie w okresie wyborczym po ca(cid:228)ej blogosferze, lecz w przypadku wideokampanii Romneya obserwujemy zgodne wysi(cid:228)ki konserwatywnych blogerów polegaj(cid:241)ce na wysy(cid:228)aniu wideozapisu na ko- mend(cid:246). 230 (cid:95) Rozdzia(cid:293) 10. Sieci spo(cid:293)eczne i dziennikarstwo danych Kup książkęPoleć książkę Rysunek 10.2. Blogi w j(cid:246)zyku angielskim11 (patrz kolorowa wk(cid:228)adka) Nale(cid:276)y przez to rozumie(cid:232), (cid:276)e gdyby ogl(cid:241)da(cid:232) tylko wykres odsy(cid:228)aczy — sam(cid:241) ich liczb(cid:246) — to mog(cid:228)oby wygl(cid:241)da(cid:232), (cid:276)e wideozapis z Romneyem jest rozsy(cid:228)any wirusowo, je(cid:264)li jednak spoj- rzymy na to z uwzgl(cid:246)dnieniem segmentacji blogosfery, to staje si(cid:246) jasne, (cid:276)e by(cid:228)a to zaplano- wana operacja maj(cid:241)ca na celu granie na miarach „wirusowo(cid:264)ci”12. Kelly wspó(cid:228)pracuje równie(cid:276) z harvardzkim Berkman Center for Internet and Society. W 2008 roku i ponownie w 2011 przeanalizowa(cid:228) ira(cid:254)sk(cid:241) blogosfer(cid:246), znajduj(cid:241)c wiele podobie(cid:254)stw pod wzgl(cid:246)dem skupie(cid:254): m(cid:228)odzi antyrz(cid:241)dowi demokraci, poezja (wa(cid:276)na cz(cid:246)(cid:264)(cid:232) ira(cid:254)skiej kultury) i pro- rz(cid:241)dowe grona konserwatywne dominowa(cid:228)y w obu latach. Jednak(cid:276)e do 2011 roku osta(cid:228)o si(cid:246) tylko 15 blogów z tych, które istnia(cid:228)y w 2008 roku. Tak wi(cid:246)c, cho(cid:232) ludzie cz(cid:246)sto skupiaj(cid:241) si(cid:246) wobec jednostek (model przypadek-atrybut), poje- dyncza ryba jest mniej wa(cid:276)na ni(cid:276) (cid:228)awice ryb. Wykonuj(cid:241)c analiz(cid:246) sieci spo(cid:228)eczno(cid:264)ciowych, po- szukujemy (cid:228)awic, poniewa(cid:276) w ten sposób dowiadujemy si(cid:246) o tym, co szczególnie nurtuje spo(cid:228)ecze(cid:254)stwo i na jakiej zasadzie d(cid:241)(cid:276)enia te utrzymuj(cid:241) si(cid:246) mimo up(cid:228)ywu lat. Mora(cid:228) z tego jest taki, (cid:276)e powinni(cid:264)my skupia(cid:232) si(cid:246) na wypo(cid:264)rodkowanych wzorcach (mezzo- wzorcach), a nie na wzorcach z poziomu mikro czy makro. 11 Tekst w nag(cid:228)ówku rysunku g(cid:228)osi: „Budujemy sieci odzwierciedlaj(cid:241)ce zamówienia klientów, dotycz(cid:241)ce na przyk(cid:228)ad zdrowia kobiet lub zagadnie(cid:254) (cid:264)rodowiska. Poni(cid:276)ej uwidoczniono zas(cid:228)uguj(cid:241)ce na uwag(cid:246) skupiska blogerów reprezentuj(cid:241)cych grupy zainteresowa(cid:254): ekolodzy, (cid:264)rodowiska feministyczne, blogerzy polityczni i rodzice” — przyp. t(cid:228)um. 12 Ang. virality; w znaczeniu informacji rozprzestrzeniaj(cid:241)cej si(cid:246) lotem b(cid:228)yskawicy — przyp. t(cid:228)um. Metody analityczne w Morningside (cid:95) 231 Kup książkęPoleć książkę Szersze t(cid:293)o statystyczne analizy sieci spo(cid:293)ecznych Jednym z podej(cid:264)(cid:232) do analizy sieci spo(cid:228)ecznych (ang. social network analysis — SNA) s(cid:241) rozwa- (cid:276)ania dotycz(cid:241)ce samej sieci traktowanej jako obiekt losowy, na podobie(cid:254)stwo liczby losowej lub zmiennej losowej. Sie(cid:232) mo(cid:276)na rozpatrywa(cid:232) jako wynik procesu losowego, czyli wynikaj(cid:241)- c(cid:241) z odpowiedniego rozk(cid:228)adu prawdopodobie(cid:254)stwa. Jest do pomy(cid:264)lenia próba z(cid:228)o(cid:276)ona z [wielu] sieci, w odniesieniu do której mo(cid:276)na by zadawa(cid:232) takie pytania jak: Co charakteryzuje sieci daj(cid:241)ce si(cid:246) przyrówna(cid:232) do Twittera? Czy dana sie(cid:232) odzwierciedla przyja(cid:274)nie w rzeczywistym (cid:264)wiecie? Co w ogóle oznacza(cid:228)oby udzielenie na to pytanie odpowiedzi twierdz(cid:241)cej lub prze- cz(cid:241)cej? To s(cid:241) jedne z g(cid:228)ównych pyta(cid:254) dyscypliny okre(cid:264)lanej jako analiza sieci spo(cid:228)ecznych, która wy(cid:228)oni(cid:228)a si(cid:246) z takich akademickich dziedzin jak matematyka, statystyka, informatyka, fizyka i socjologia, maj(cid:241)cej rozleg(cid:228)y zakres zastosowa(cid:254) w jeszcze liczniejszych dziedzinach, w tym w badaniach fMRI13, epidemiologii i studiach nad sieciami spo(cid:228)eczno(cid:264)ciowymi (sieciami spo- (cid:228)ecznymi online), takimi jak Facebook lub Google+. Reprezentacje sieci i centralno(cid:316)(cid:235) warto(cid:316)ci w(cid:293)asnej W niektórych sieciach kraw(cid:246)dzie mi(cid:246)dzy w(cid:246)z(cid:228)ami s(cid:241) skierowane: mog(cid:246) post(cid:246)powa(cid:232) za Tob(cid:241) na Twitterze, podczas gdy Ty za mn(cid:241) nie post(cid:246)pujesz, tote(cid:276) kraw(cid:246)d(cid:274) b(cid:246)dzie prowadzi(cid:232) ode mnie do Ciebie. Natomiast inne sieci maj(cid:241) tylko symetryczne kraw(cid:246)dzie: albo si(cid:246) wzajemnie znamy, albo nie. Te ostatnie sieci s(cid:241) okre(cid:264)lane jako nieskierowane. Sie(cid:232) nieskierowan(cid:241) o N w(cid:246)z(cid:228)ach mo(cid:276)na przedstawi(cid:232) w postaci macierzy z(cid:228)o(cid:276)onej z je- dynek i zer, w której element (i, j) jest równy 1 wtedy i tylko wtedy, gdy w(cid:246)z(cid:228)y i i j s(cid:241) po(cid:228)(cid:241)- czone. Macierz t(cid:246) nazywamy macierz(cid:241) s(cid:241)siedztwa (ang. adjacency matrix) lub macierz(cid:241) incydencji (ang. incidence matrix)14. Zauwa(cid:276)my, (cid:276)e mo(cid:276)emy to w istocie zdefiniowa(cid:232) tak(cid:276)e dla sieci skie- rowanych, lecz w przypadku sieci nieskierowanych macierz taka jest zawsze symetryczna. NN (cid:117) Alternatywn(cid:241) reprezentacj(cid:241) sieci jest lista list: dla ka(cid:276)dego w(cid:246)z(cid:228)a i wypisujemy wykaz w(cid:246)- z(cid:228)ów, z którymi w(cid:246)ze(cid:228) i ma po(cid:228)(cid:241)czenie. Nazywa si(cid:246) to list(cid:241) incydencji i zauwa(cid:276)my, (cid:276)e nie za- le(cid:276)y ona od tego, (cid:276)e sie(cid:232) jest nieskierowana. Przedstawianie sieci w ten sposób oszcz(cid:246)dza pami(cid:246)(cid:232) — w(cid:246)z(cid:228)y mog(cid:241) mie(cid:232) atrybuty reprezentowane w postaci wektora lub listy. Na przyk(cid:228)ad, je(cid:264)li w(cid:246)z(cid:228)y oznaczaj(cid:241) ludzi, to atrybutami mog(cid:241) by(cid:232) informacje demograficzne lub informacje dotycz(cid:241)ce ich zachowa(cid:254), obyczajów czy upodoba(cid:254). Kraw(cid:246)dziom mo(cid:276)na równie(cid:276) przypisywa(cid:232) warto(cid:264)ci, czyli wagi (wektory), wyra(cid:276)aj(cid:241)ce infor- macje o charakterze powi(cid:241)za(cid:254) w(cid:246)z(cid:228)ów, mi(cid:246)dzy którymi wyst(cid:246)puj(cid:241). Warto(cid:264)ci te mo(cid:276)na zapa- mi(cid:246)ta(cid:232) w macierzy zamiast jedynek i zer, które reprezentuj(cid:241) tylko obecno(cid:264)(cid:232) lub nie- obecno(cid:264)(cid:232) powi(cid:241)zania. NN (cid:117) Korzystaj(cid:241)c z poj(cid:246)cia macierzy s(cid:241)siedztwa A, mo(cid:276)emy na koniec zdefiniowa(cid:232) centralno(cid:264)(cid:232) war- to(cid:264)ci w(cid:228)asnej (ang. eigenvalue centrality), o której wspomnieli(cid:264)my ju(cid:276) w punkcie „Miary cen- tralno(cid:264)ci”. Definiuje si(cid:246) j(cid:241) zwi(cid:246)(cid:274)le jako jednoznaczne wektorowe rozwi(cid:241)zanie x równania 13 Czyli w obrazowaniu metod(cid:241) rezonansu magnetycznego; akronim pochodzi od functional Magnetic Resonance Imaging — przyp. t(cid:228)um. 14 Wed(cid:228)ug innych definicji macierz incydencji odnosi si(cid:246) do grafów skierowanych — przyp. t(cid:228)um. 232 (cid:95) Rozdzia(cid:293) 10. Sieci spo(cid:293)eczne i dziennikarstwo danych Kup książkęPoleć książkę x Ax (cid:79)(cid:32) takie, (cid:276)e (cid:33) xi i ,0 (cid:32) (cid:34)1 N Jak si(cid:246) okazuje, ostatni warunek jest równowa(cid:276)ny wyborowi najwi(cid:246)kszej warto(cid:264)ci w(cid:228)asnej (cid:79). Zatem w rzeczywistym algorytmie nale(cid:276)y znale(cid:274)(cid:232) pierwiastki równania i upo- rz(cid:241)dkowa(cid:232) je wed(cid:228)ug rozmiaru, bior(cid:241)c najwi(cid:246)kszy i okre(cid:264)laj(cid:241)c go jak (cid:79). Nast(cid:246)pnie znajdujemy x, rozwi(cid:241)zuj(cid:241)c uk(cid:228)ad równa(cid:254): (cid:12) xItA det (cid:11) (cid:16) (cid:11) A (cid:12) I x(cid:79)(cid:16) (cid:32) 0 W ten sposób otrzymujemy x, wektor wyników centralno(cid:264)ci wektora w(cid:228)asnego. Zauwa(cid:276)my, (cid:276)e nie mówi nam to zbyt wiele o centralno(cid:264)ci warto(cid:264)ci w(cid:228)asnej, mimo (cid:276)e stanowi sposób na jej obliczenie. Aby wyrobi(cid:232) sobie o niej g(cid:228)(cid:246)bsze poj(cid:246)cie, nale(cid:276)y rozwa(cid:276)y(cid:232) j(cid:241) jako granic(cid:246) prostego schematu iteracyjnego, cho(cid:232) wymaga(cid:228)oby to dowodu, który mo(cid:276)esz znale(cid:274)(cid:232) na przyk(cid:228)ad tutaj15. Otó(cid:276) zaczynamy od wektora, którego elementy s(cid:241) po prostu stopniami w(cid:246)z(cid:228)ów16, by(cid:232) mo(cid:276)e przeskalowanymi tak, aby suma elementów wynosi(cid:228)a 1. Same stopnie nie daj(cid:241) nam jednak prawdziwej wiedzy o sposobie po(cid:228)(cid:241)czenia danego w(cid:246)z(cid:228)a, tote(cid:276) w nast(cid:246)pnym powtórzeniu dodajemy stopnie wszystkich s(cid:241)siadów danego w(cid:246)z(cid:228)a, znowu je skaluj(cid:241)c. Powtarzamy to po- st(cid:246)powanie, dodaj(cid:241)c za ka(cid:276)dym razem stopnie o krok dalszych s(cid:241)siadów. W granicy — jako (cid:276)e ten proces iteracyjny si(cid:246) nie ko(cid:254)czy17 — otrzymujemy wektor centralno(cid:264)ci warto(cid:264)ci w(cid:228)asnej. Pierwszy przyk(cid:293)ad grafów losowych: model Erd(cid:308)sa-Rényiego Przeróbmy prosty przyk(cid:228)ad, w którym sie(cid:232) mo(cid:276)na rozpatrywa(cid:232) jako jednostkowy efekt pro- cesu stochastycznego. Mianowicie tak(cid:241), w której dany w(cid:246)ze(cid:228) wyst(cid:246)puje zgodnie z rozk(cid:228)adem prawdopodobie(cid:254)stwa, a wszystkie w(cid:246)z(cid:228)y s(cid:241) traktowane niezale(cid:276)nie. Sie(cid:235) Bernoulliego Nie wszystkie sieci o N w(cid:246)z(cid:228)ach s(cid:241) jednakowo prawdopodobne w tym modelu. Prawdopo- dobie(cid:254)stwo zaobserwowania sieci, w której wszystkie w(cid:246)z(cid:228)y maj(cid:241) po(cid:228)(cid:241)czenie ze wszystkimi innymi, wynosi pD, natomiast prawdopodobie(cid:254)stwo zaobserwowania sieci, w której wszyst- kie w(cid:246)z(cid:228)y s(cid:241) roz(cid:228)(cid:241)czone wynosi (cid:11) . I oczywi(cid:264)cie mi(cid:246)dzy tymi skrajno(cid:264)ciami jest do pomy(cid:264)lenia wiele innych sieci. Model Erd(cid:258)sa-Rényiego jest równie(cid:276) okre(cid:264)lany jako sie(cid:232) Ber- noulliego. W literaturze matematycznej, model Erd(cid:258)sa-Rényiego jest traktowany jako obiekt matematyczny o interesuj(cid:241)cych w(cid:228)asno(cid:264)ciach, umo(cid:276)liwiaj(cid:241)cy dowodzenie twierdze(cid:254). (cid:12)Dp(cid:16)1 15 W pracy Leo Spizzirriego: http://www.math.washington.edu/~morrow/336_11/papers/leo.pdf — przyp. t(cid:228)um. 16 Tj. liczbami kraw(cid:246)dzi s(cid:241)siaduj(cid:241)cych z poszczególnymi w(cid:246)z(cid:228)ami — przyp. t(cid:228)um. 17 Liczba w(cid:246)z(cid:228)ów w grafie jest sko(cid:254)czona, ale mog(cid:241) w nim wyst(cid:246)powa(cid:232) p(cid:246)tle znajomo(cid:264)ci — przyp. t(cid:228)um. Szersze t(cid:293)o statystyczne analizy sieci spo(cid:293)ecznych (cid:95) 233 Kup książkęPoleć książkę par w(cid:246)z(cid:228)ów, czyli diad, które Powiedzmy, (cid:276)e zaczynamy od N w(cid:246)z(cid:228)ów. Istnieje wi(cid:246)c mog(cid:241) by(cid:232) po(cid:228)(cid:241)czone kraw(cid:246)dzi(cid:241) (nieskierowan(cid:241)) albo nie. Wobec tego jest 2D sieci mo(cid:276)liwych do zaobserwowania. Najprostszy rozk(cid:228)ad, wed(cid:228)ug którego mo(cid:276)na ulokowa(cid:232) poszczególne w(cid:246)z(cid:228)y, nosi nazw(cid:246) modelu Erd(cid:258)sa-Rényiego. Zak(cid:228)ada si(cid:246) w nim, (cid:276)e kraw(cid:246)d(cid:274) mi(cid:246)dzy ka(cid:276)d(cid:241) pa- r(cid:241) w(cid:246)z(cid:228)ów (i, j) istnieje z prawdopodobie(cid:254)stwem p. D (cid:32) (cid:11) N (cid:12)2 Drugi przyk(cid:293)ad grafów losowych: wyk(cid:293)adniczy model grafu losowego Teraz z(cid:228)a nowina: sieci spo(cid:228)eczne mo(cid:276)liwe do zaobserwowania w rzeczywisto(cid:264)ci nie przy- pominaj(cid:241) sieci Bernoulliego. Na przyk(cid:228)ad sieci znajomych lub sieci wspó(cid:228)pracy akademickiej na ogó(cid:228) przejawiaj(cid:241) takie cechy jak: przechodnio(cid:264)(cid:232) (tranzytywno(cid:264)(cid:232), ang. transitivity) — tenden- cj(cid:246), (cid:276)e je(cid:264)li A zna B i B zna C, to A zna C, skupianie (ang. clustering) — tendencj(cid:246) do gorzej lub lepiej zdefiniowanych niewielkich grup istniej(cid:241)cych w ramach wi(cid:246)kszych sieci, wzajem- no(cid:264)(cid:232), czyli obopólno(cid:264)(cid:232) (w sieci skierowanej jest to tendencja do (cid:264)ledzenia B przez A, je(cid:264)li A (cid:264)ledzi B), i wewn(cid:246)trzno(cid:264)(cid:232) (po(cid:228)o(cid:276)enie po(cid:264)rodku, tendencja polegaj(cid:241)ca na istnieniu pewnych osób, przez które przep(cid:228)ywaj(cid:241) informacje). Niektóre z tych w(cid:228)a(cid:264)ciwo(cid:264)ci obserwowanych w rzeczywistych sieciach s(cid:241) do(cid:264)(cid:232) proste do prze(cid:228)o(cid:276)enia na j(cid:246)zyk matematyki. Na przyk(cid:228)ad przechodnio(cid:264)(cid:232) mo(cid:276)na uj(cid:241)(cid:232) za pomoc(cid:241) liczby trójk(cid:241)tów w sieci. Wyk(cid:228)adnicze modele grafów losowych (ang. exponential random graph models — ERGM-y) s(cid:228)u(cid:276)(cid:241) do ujmowania tych cech sieci rzeczywistego (cid:264)wiata i s(cid:241) powszechnie stosowane w so- cjologii. Ogólne podej(cid:264)cie do ERGM-ów polega na wybraniu odpowiedniej statystyki grafu, jak liczba trójk(cid:241)tów, liczba kraw(cid:246)dzi i liczba dwugwiazd (ang. 2-stars, czyli podgrafów sk(cid:228)adaj(cid:241)cych si(cid:246) z w(cid:246)z(cid:228)a z dwiema szprychami (ramionami); tak wi(cid:246)c w(cid:246)ze(cid:228) stopnia 3 ma skojarzone ze sob(cid:241) trzy dwugwiazdy) przy danej liczba w(cid:246)z(cid:228)ów i to wszystko mo(cid:276)e by(cid:232) traktowane jako zmienne zi Twojego modelu. Wtedy trzeba tak dobra(cid:232) towarzysz(cid:241)ce im wspó(cid:228)czynniki (cid:84)i, aby by(cid:228)y do- strojone do pewnego typu zachowania, które obserwujesz lub chcesz symulowa(cid:232). Je(cid:264)li na przy- k(cid:228)ad z1 odnosi si(cid:246) do liczby trójk(cid:241)tów, to dodatnia warto(cid:264)(cid:232) (cid:84)1 oznacza(cid:228)aby tendencj(cid:246) do wi(cid:246)k- szych liczb trójk(cid:241)tów. Dodatkowe statystyki grafu, które si(cid:246) wprowadza, obejmuj(cid:241) k-gwiazdy (podgrafy sk(cid:228)adaj(cid:241)ce si(cid:246) z w(cid:246)z(cid:228)a z k szprychami — zatem w(cid:246)ze(cid:228) stopnia k-gwiazd), stopie(cid:254), czyli naprzemienne k-gwiazdy, zbiorcz(cid:241) statystyk(cid:246) liczb k-gwiazd dla ró(cid:276)nych k. Aby da(cid:232) poj(cid:246)cie o tym, jak ERGM mo(cid:276)e wygl(cid:241)da(cid:232) od strony wzorów, prezentujemy jeden z nich: 1(cid:14)k 1(cid:14)k ma Pr (cid:11) Y y (cid:32) (cid:12) (cid:32) (cid:167) (cid:168) (cid:169) 1 (cid:183) (cid:184) (cid:78) (cid:185) (cid:11) (cid:11) z (cid:84) 1 1 (cid:11) y (cid:12) (cid:14) (cid:84) z 2 2 (cid:11) y (cid:12) (cid:14) (cid:84) z 3 3 (cid:11) y (cid:12) (cid:12) (cid:12) Tutaj stwierdzamy, (cid:276)e prawdopodobie(cid:254)stwo zaobserwowania konkretnej realizacji grafu lo- sowego lub sieci Y jest funkcj(cid:241) statystyki grafu, czyli cech, które w(cid:228)a(cid:264)nie oznaczyli(cid:264)my jako zi. W tych ramach sie(cid:232) Bernoulliego jest szczególnym przypadkiem ERGM-u, takim, w którym mamy tylko jedn(cid:241) zmienn(cid:241), odpowiadaj(cid:241)c(cid:241) liczbie kraw(cid:246)dzi. 234 (cid:95) Rozdzia(cid:293) 10. Sieci spo(cid:293)eczne i dziennikarstwo danych Kup książkęPoleć książkę Wnioskowanie w ERGM-ach W warunkach idealnych, cho(cid:232) w pewnych przypadkach w praktyce nierealistycznych, mo(cid:276)- na zaobserwowa(cid:232) prób(cid:246) kilku sieci Y1, ..., Yn reprezentowanych przez macierze s(cid:241)siedztwa, powiedzmy — dla ustalonej liczby w(cid:246)z(cid:228)ów N. Maj(cid:241)c te sieci, mogliby(cid:264)my zamodelowa(cid:232) je jako niezale(cid:276)ne i jednakowo rozproszone obser- wacje z tego samego modelu prawdopodobie(cid:254)stwa. Mogliby(cid:264)my wtedy wywnioskowa(cid:232) pa- rametry tego modelu. Oto pierwszy przyk(cid:228)ad. Je(cid:264)li we(cid:274)miemy pod uwag(cid:246) sie(cid:232) Bernoulliego, charakteryzowan(cid:241) przez prawdopodobie(cid:254)stwo p istnienia dowolnego w(cid:246)z(cid:228)a, to mo(cid:276)emy obliczy(cid:232) szans(cid:246) dowolnej sieci z naszej próby, wynikaj(cid:241)c(cid:241) z danej sieci Bernoulliego jako L (cid:32) (cid:51) d i p n i (cid:11) 1 (cid:16) (cid:12) D d p (cid:16) i gdzie di jest liczb(cid:241) obserwowanych kraw(cid:246)dzi w i-tej sieci, a D — jak poprzednio — jest suma- ryczn(cid:241) liczb(cid:241) diad w sieci. Nast(cid:246)pnie mo(cid:276)emy wyci(cid:241)gn(cid:241)(cid:232) estymator dotycz(cid:241)cy p jako: ˆ p (cid:32) (cid:166) n i d 1 (cid:32) nD i W praktyce w literaturze wyk(cid:228)adniczych modeli grafów losowych (ERGM-ów) jest obserwo- wana tylko jedna sie(cid:232), przez co rozumie si(cid:246), (cid:276)e pracujemy na próbie rozmiaru jeden. Na pod- stawie tego jednego przyk(cid:228)adu estymujemy parametr modelu prawdopodobie(cid:254)stwa, który „wygenerowa(cid:228)” t(cid:246) sie(cid:232). W przypadku sieci Bernoulliego nawet z jednej sieci mogliby(cid:264)my wy- estymowa(cid:232) (oszacowa(cid:232)) p jako odsetek kraw(cid:246)dzi w (cid:228)(cid:241)cznej liczbie diad, co wydaje si(cid:246) osza- cowaniem rozs(cid:241)dnym. Jednak dla bardziej skomplikowanych ERGM-ów estymowanie parametrów na podstawie jednej obserwacji sieci jest trudne. Je(cid:264)li dokonuje si(cid:246) go za pomoc(cid:241) czego(cid:264) okre(cid:264)lanego jako procedura estymacji pseudowiarygodno(cid:264)ci, skutkuje to niekiedy produkowaniem warto(cid:264)ci nie- sko(cid:254)czonych (zob. artyku(cid:228) Marka Handcocka Assessing Degeneracy of Statistical Models of Social Networks z 2003 roku18). Je(cid:264)li natomiast jest ono robione za pomoc(cid:241) tzw. metod MCMC19, to dolega mu co(cid:264), co jest okre(cid:264)lane jako degeneracja dedukcyjna, kiedy to algorytm zbiega si(cid:246) do zdegenerowanych grafów — takich, które s(cid:241) pe(cid:228)ne albo puste — lub algorytm nie zbiega si(cid:246) konsekwentnie (to równie(cid:276) znajdujemy w artykule Handcocka). Dalsze przyk(cid:293)ady grafów losowych: modele przestrzeni ukrytych, sieci ma(cid:293)ych (cid:316)wiatów Badacze, zmotywowani problemami degeneracji modelu i niestabilno(cid:264)ci w wyk(cid:228)adniczych modelach grafów losowych, wprowadzili modele przestrzeni ukrytych (ang. latent space models); zob. Latent Space Approaches to Social Network Analysis Petera Hoffa. W modelach przestrzeni ukrytych d(cid:241)(cid:276)y si(cid:246) do uchwycenia nast(cid:246)puj(cid:241)cego zagadnienia: ob- serwujemy pewn(cid:241) rzeczywisto(cid:264)(cid:232), lecz istnieje te(cid:276) pewna zwi(cid:241)zana z ni(cid:241) rzeczywisto(cid:264)(cid:232) utajo- na, której nie mo(cid:276)emy zaobserwowa(cid:232). Mo(cid:276)emy na przyk(cid:228)ad obserwowa(cid:232) powi(cid:241)zania mi(cid:246)dzy 18 Streszczenie pod adresem http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.81.5086 — przyp. t(cid:228)um. 19 Akronim pochodzi od ang. Markov Chain Monte Carlo, czyli: (cid:228)a(cid:254)cuchy Markowa i metody Monte Carlo — przyp. t(cid:228)um. Szersze t(cid:293)o statystyczne analizy sieci spo(cid:293)ecznych (cid:95) 235 Kup książkęPoleć książkę lud(cid:274)mi na Facebooku, lecz nie mo(cid:276)emy ustali(cid:232), gdzie oni mieszkaj(cid:241), ani innych w(cid:228)a(cid:264)ciwo(cid:264)ci, które powoduj(cid:241), (cid:276)e maj(cid:241) sk(cid:228)onno(cid:264)(cid:232) do zaprzyja(cid:274)niania si(cid:246) ze sob(cid:241). Inni badacze zaproponowali sieci ma(cid:228)ych (cid:264)wiatów (ang. small-world networks); por. modele zapro- ponowane w artykule Wattsa i Strogatza w 1998 roku. Modele te zajmuj(cid:241) w spektrum miejsce pomi(cid:246)dzy grafami ca(cid:228)kowicie losowymi i ca(cid:228)kowicie regularnymi, próbuje si(cid:246) w nich uchwy- ci(cid:232) zjawisko rzeczywiste na sze(cid:264)ciu oddzielnych poziomach. W krytyce tych modeli podkre(cid:264)la si(cid:246), (cid:276)e produkuj(cid:241) one sieci homogeniczne pod wzgl(cid:246)dem stopnia, natomiast sieci obserwo- walne w rzeczywistym (cid:264)wiecie wykazuj(cid:241) tendencje do swobodnej skalowalno(cid:264)ci i niehomo- geniczno(cid:264)ci, je(cid:264)li chodzi o stopie(cid:254). Oprócz opisanych modeli inne ich klasy obejmuj(cid:241) losowe pola Markowa, modele bloków sto- chastycznych, modele mieszanej przynale(cid:276)no(cid:264)ci i modele mieszanej przynale(cid:276)no(cid:264)ci bloków sto- chastycznych — w ka(cid:276)dym z nich dane relacyjne s(cid:241) modelowane w ró(cid:276)ny sposób i d(cid:241)(cid:276)y si(cid:246) do w(cid:228)(cid:241)czania cech nieobecnych w innych modelach. (Zob. na przyk(cid:228)ad artyku(cid:228) Mixed Mem- bership Stochastic Block Models Eduardo Airoliego i innnych). Oto kilka podr(cid:246)czników do dalszych lektur: (cid:120) Networks, Crowds, and Markets (Cambridge University Press) autorstwa Davida Easleya i Jona Kleinberga z Instytutu Informatyki Uniwersytetu Cornella. (cid:120) Rozdzia(cid:228) o wydobywaniu grafów sieci spo(cid:228)ecznych w ksi(cid:241)(cid:276)ce Mining Massive Datasets (Cambridge University Press) Ananda Rajaramana, Jeffa Ullmana i Jure’a Leskoveca z In- stytutu Informatyki Uniwersytetu Stanforda. (cid:120) Statistical Analysis of Network Data (Springer) Erica D. Kolaczyka z Boston University. Dziennikarstwo danych Naszym drugim mówc(cid:241) wieczoru by(cid:228) Jon Bruner, redaktor z O’Reilly, który przedtem pra- cowa(cid:228) jako redaktor danych w „Forbesie”. Ma szerokie umiej(cid:246)tno(cid:264)ci: prowadzi rozleg(cid:228)e badania danych i pisze o wszystkim, co si(cid:246) z nimi wi(cid:241)(cid:276)e. Kilka s(cid:293)ów o historii dziennikarstwa danych Dziennikarstwo danych istnieje od pewnego czasu, lecz do niedawna doniesienia wspierane komputerowo by(cid:228)y domen(cid:241) u(cid:276)ytkowników mocnych w Excelu. (Nawet obecnie, je(cid:264)li umiesz napisa(cid:232) program w Excelu, jeste(cid:264) elit(cid:241)). Ostatnio co(cid:264) si(cid:246) w tym zmienia. Coraz wi(cid:246)cej danych jest nam udost(cid:246)pnianych za po(cid:264)red- nictwem API, nowych narz(cid:246)dzi i przy mniejszym zu(cid:276)yciu mocy obliczeniowej, tote(cid:276) prawie ka(cid:276)dy mo(cid:276)e analizowa(cid:232) ca(cid:228)kiem du(cid:276)e zbiory danych na laptopie. Umiej(cid:246)tno(cid:264)ci programowa- nia s(cid:241) obecnie szeroko upowszechnione, mo(cid:276)esz wi(cid:246)c znale(cid:274)(cid:232) ludzi dobrych zarówno w piórze, jak i w programowaniu. Wiele osób bieg(cid:228)ych w angielskim wie na tyle o komputerach, aby da(cid:232) sobie z nimi rad(cid:246); z drugiej strony mo(cid:276)na znale(cid:274)(cid:232) znawców informatyki potrafi(cid:241)cych pisa(cid:232). W du(cid:276)ych pismach, jak „New York Times”, dziennikarstwo danych jest uprawiane z podzia(cid:228)em na obszary: grafika a w(cid:228)a(cid:264)ciwo(cid:264)ci interakcyjne, badania, in(cid:276)ynierowie baz danych, roboty in- ternetowe (ang. crawlers), budowniczowie oprogramowania i autorzy pisz(cid:241)cy na tematy spe- cjalistyczne. Jedni odpowiadaj(cid:241) za stawianie w(cid:228)a(cid:264)ciwych pyta(cid:254), które jednak przekazuj(cid:241) innym do analizy. Na przyk(cid:228)ad Charles Duhigg z „New York Timesa” bada(cid:228) jako(cid:264)(cid:232) wody w Nowym 236 (cid:95) Rozdzia(cid:293) 10. Sieci spo(cid:293)eczne i dziennikarstwo danych Kup książkęPoleć książkę Jorku, w zwi(cid:241)zku z czym z(cid:228)o(cid:276)y(cid:228) wniosek o swobodny dost(cid:246)p do informacji20 stanu Nowy Jork — wiedzia(cid:228) wystarczaj(cid:241)co du(cid:276)o, by zdawa(cid:232) sobie spraw(cid:246), co winno by(cid:232) we wniosku FOIA i jakie zadawa(cid:232) pytania, lecz faktyczn(cid:241) analiz(cid:246) wykona(cid:228) kto inny. W mniejszych str
Pobierz darmowy fragment (pdf)

Gdzie kupić całą publikację:

Badanie danych. Raport z pierwszej linii działań
Autor:
,

Opinie na temat publikacji:


Inne popularne pozycje z tej kategorii:


Czytaj również:


Prowadzisz stronę lub blog? Wstaw link do fragmentu tej książki i współpracuj z Cyfroteką: