Cyfroteka.pl

klikaj i czytaj online

Cyfro
Czytomierz
00416 007007 14246586 na godz. na dobę w sumie
Microsoft SQL Server. Modelowanie i eksploracja danych - książka
Microsoft SQL Server. Modelowanie i eksploracja danych - książka
Autor: , Liczba stron: 424
Wydawca: Helion Język publikacji: polski
ISBN: 978-83-246-3440-8 Data wydania:
Lektor:
Kategoria: ebooki >> komputery i informatyka >> bazy danych >> sql server
Porównaj ceny (książka, ebook, audiobook).

Poznaj sprawdzone techniki profesjonalnej eksploracji danych!

Eksploracja danych jest najmłodszą i najszybciej rozwijającą się dziedziną informatyki. Łączy zaawansowane algorytmy analizowania danych i znajdowania ukrytych w nich wzorców z klasycznymi technikami statystycznymi, rachunkiem prawdopodobieństwa i technologiami bazodanowymi. Dziedzina ta zyskuje na znaczeniu wraz z lawinowo rosnącą ilością informacji cyfrowych, które każdego dnia na całym świecie są wytwarzane, zapisywane i przeszukiwane przez stale zwiększającą się grupę użytkowników technologii informatycznych. Trzydzieści lat temu świat zrewolucjonizowały komputery PC, a dziś w ogarnięciu tego chaosu pomóc mogą jedynie najskuteczniejsze narzędzia do modelowania i eksploracji danych.

'Microsoft SQL Server. Modelowanie i eksploracja danych' to książka, z której analitycy, informatycy i biznesmeni dowiedzą się, jak tworzyć właściwe modele, odpowiednio przygotowywać dane i prawidłowo je eksplorować, a także jak należycie analizować i oceniać otrzymane wyniki przy użyciu narzędzi oferowanych przez oprogramowanie Microsoft SQL Server. Publikacja przybliża zagadnienia związane z poszczególnymi etapami procesu modelowania i eksploracji, prezentując przy tym zastosowanie różnych metod i technik analizy do rozwiązywania praktycznych problemów naukowych i biznesowych.

Naucz się wykorzystywać zaawansowane narzędzia do inteligentnej zamiany dużych zbiorów danych w przydatne informacje!

Znajdź podobne książki Ostatnio czytane w tej kategorii

Darmowy fragment publikacji:

Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną, fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje naruszenie praw autorskich niniejszej publikacji. Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich właścicieli. Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie ponoszą również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce. Redaktor prowadzący: Michał Mrowiec Korekta merytoryczna: Radosław Łebkowski Projekt okładki: Jan Paluch Fotografia na okładce została wykorzystana za zgodą Shutterstock.com Wydawnictwo HELION ul. Kościuszki 1c, 44-100 GLIWICE tel. 32 231 22 19, 32 230 98 63 e-mail: helion@helion.pl WWW: http://helion.pl (księgarnia internetowa, katalog książek) Drogi Czytelniku! Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres http://helion.pl/user/opinie?sqlsme Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję. Kody źródłowe wybranych przykładów dostępne są pod adresem: ftp://ftp.helion.pl/przyklady/sqlsme.zip ISBN: 978-83-246-3440-8 Copyright © Helion 2012 Printed in Poland. • Kup książkę • Poleć książkę • Oceń książkę • Księgarnia internetowa • Lubię to! » Nasza społeczność Spis treĈci Wstöp .................................................................................................... 9 Proces eksploracji danych .............................................................................................. 10 Instalacja i konfiguracja narzĊdzi ................................................................................... 12 Serwer SQL .............................................................................................................. 12 Arkusz kalkulacyjny Excel ....................................................................................... 15 Dodatek Data Mining do pakietu Office .................................................................. 15 Przykáady ................................................................................................................. 16 Konwencje i oznaczenia ................................................................................................. 20 CzöĈè I Modelowanie ................................................................ 23 Rozdziaä 1. Eksploracja danych jako technika wspomagania decyzji ........................ 25 Modelowanie Ğwiata ....................................................................................................... 25 Obiekty, zdarzenia i reguáy ...................................................................................... 26 Dane ......................................................................................................................... 27 Informacje ................................................................................................................ 27 Wiedza ..................................................................................................................... 29 Decyzje ..................................................................................................................... 31 Eksploracja danych ......................................................................................................... 32 Hipotezy ................................................................................................................... 32 Káopoty ze sformuáowaniem problemu .................................................................... 33 Rozdziaä 2. Analiza biznesowa ................................................................................. 35 Cele modelowania i eksploracji danych ......................................................................... 35 Opisywanie danych czy wspieranie decyzji? ............................................................ 36 Decydenci ................................................................................................................. 38 Zakres projektu eksploracji danych ................................................................................ 39 Dane Ĩródáowe ......................................................................................................... 40 Kontekst ................................................................................................................... 40 Sprecyzowanie spodziewanych wyników .................................................................... 42 Modele deskrypcyjne ............................................................................................... 43 Modele predykcyjne ................................................................................................. 43 PrawdopodobieĔstwo sukcesu projektu eksploracji danych ........................................... 44 Ocena ryzyka .................................................................................................................. 45 4 Microsoft SQL Server. Modelowanie i eksploracja danych Rozdziaä 3. Ocena danych ....................................................................................... 49 Dane Ĩródáowe ................................................................................................................ 49 BáĊdy pomiaru .......................................................................................................... 50 Przypadki, czyli to, co badamy ....................................................................................... 51 Profilowanie danych za pomocą usáugi SQL Server Integration Services ...................... 54 Atrybuty i ich stany ........................................................................................................ 57 Atrybuty jednowartoĞciowe i wielowartoĞciowe ...................................................... 57 Atrybuty monotoniczne ............................................................................................ 59 Rozkáad wartoĞci ...................................................................................................... 59 IntegralnoĞü danych ........................................................................................................ 62 Duplikaty .................................................................................................................. 62 Zakres wartoĞci ........................................................................................................ 63 ZgodnoĞü ze wzorcem .............................................................................................. 63 Próbkowanie i reprezentatywnoĞü danych ...................................................................... 64 Próbkowanie danych ................................................................................................ 64 ZbieĪnoĞü do rzeczywistego rozkáadu ...................................................................... 65 Odchylenie standardowe .......................................................................................... 67 ZmiennoĞü atrybutów tekstowych ............................................................................ 68 Brakujące dane ............................................................................................................... 69 Model brakujących danych ....................................................................................... 70 ZaleĪnoĞci pomiĊdzy atrybutami .................................................................................... 73 NiezaleĪne atrybuty .................................................................................................. 74 Nadmiarowe atrybuty ............................................................................................... 75 Anachronizmy .......................................................................................................... 76 Mierzenie informacji ...................................................................................................... 76 Bity ........................................................................................................................... 77 Zaskoczenie .............................................................................................................. 77 Kontekst ................................................................................................................... 78 Rozdziaä 4. Przygotowanie danych .......................................................................... 79 PrzestrzeĔ stanów ........................................................................................................... 79 Atrybuty dyskretne ......................................................................................................... 81 Grupowanie .............................................................................................................. 81 Numerowanie stanów ............................................................................................... 84 Atrybuty porządkowe ............................................................................................... 85 Atrybuty okresowe ................................................................................................... 86 Atrybuty ciągáe ............................................................................................................... 86 WartoĞci skrajne ....................................................................................................... 87 Normalizacja zakresu ............................................................................................... 87 Dyskretyzacja ........................................................................................................... 90 Serie danych ................................................................................................................... 92 Trend ........................................................................................................................ 96 OkresowoĞü i sezonowoĞü ........................................................................................ 96 Szum ......................................................................................................................... 97 Rozdziaä 5. Poprawa jakoĈci danych ....................................................................... 99 Uzupeánienie wartoĞci .................................................................................................... 99 Wzbogacenie danych .................................................................................................... 103 Redukcja wymiarów ..................................................................................................... 105 Korelacje ................................................................................................................ 106 Spis treĈci 5 Dane dla modeli deskrypcyjnych .................................................................................. 108 Dane dla modeli predykcyjnych ................................................................................... 109 Zmiana proporcji .................................................................................................... 109 Dane na potrzeby analizy wariantowej ......................................................................... 111 Analiza wariantowa ................................................................................................ 111 Wydzielenie danych testowych .................................................................................... 113 CzöĈè II Eksploracja ................................................................ 117 Rozdziaä 6. Techniki eksploracji danych ............................................................ 119 Zastosowania ................................................................................................................ 119 Dodatek Data Mining do pakietu Office ....................................................................... 121 Ocena i przygotowanie danych Ĩródáowych ........................................................... 121 Techniki eksploracji danych ......................................................................................... 126 Klasyfikacja ............................................................................................................ 126 Szacowanie ............................................................................................................. 136 Asocjacja ................................................................................................................ 141 Grupowanie ............................................................................................................ 145 Analiza sekwencyjna .............................................................................................. 151 Analiza wariantowa ................................................................................................ 152 Prognozowanie ....................................................................................................... 156 Rozdziaä 7. Serwer SQL jako platforma eksploracji danych ................................ 161 Excel jako klient SQL Server Analysis Services .......................................................... 162 NarzĊdzia eksploracji zewnĊtrznych danych .......................................................... 162 Praca z modelami eksploracji danych .................................................................... 184 Formuáy arkusza Excel ........................................................................................... 191 Projekty eksploracji danych .......................................................................................... 192 Business Intelligence Development Studio ............................................................ 192 ħródáa danych ......................................................................................................... 195 Widoki danych Ĩródáowych .................................................................................... 196 Struktury eksploracji danych .................................................................................. 199 Modele eksploracji danych ..................................................................................... 206 Zapytania predykcyjne ........................................................................................... 210 ZagnieĪdĪanie przypadków .................................................................................... 213 Zarządzanie serwerem SSAS i modelami eksploracji danych poprzez SQL Server Management Studio .......................................................................................... 216 Usáugi eksploracji danych serwera SQL ....................................................................... 218 Architektura ............................................................................................................ 219 BezpieczeĔstwo ...................................................................................................... 221 Integracja z pozostaáymi usáugami Business Intelligence ....................................... 223 Rozdziaä 8. DMX ................................................................................................... 227 Terminologia ................................................................................................................ 227 Atrybut ................................................................................................................... 227 WartoĞü i stan ......................................................................................................... 229 Przypadek ............................................................................................................... 229 Klucze .................................................................................................................... 230 Struktury eksploracji danych .................................................................................. 231 Modele eksploracji danych ..................................................................................... 232 6 Microsoft SQL Server. Modelowanie i eksploracja danych Skáadnia jĊzyka DMX .................................................................................................. 232 Tworzenie struktur eksploracji danych ................................................................... 233 Tworzenie modeli eksploracji danych .................................................................... 235 Przetwarzanie struktur i modeli eksploracji danych ............................................... 239 Odczytywanie zawartoĞci struktur i modeli eksploracji danych ............................. 243 Zapytania predykcyjne ........................................................................................... 245 Funkcje predykcyjne .............................................................................................. 251 Rozdziaä 9. Naiwny klasyfikator Bayesa firmy Microsoft ........................................ 253 Omówienie ................................................................................................................... 253 Ograniczenia .......................................................................................................... 255 Parametry ............................................................................................................... 256 Zastosowania naiwnego klasyfikatora Bayesa ........................................................... 258 Badanie zaleĪnoĞci pomiĊdzy atrybutami .............................................................. 258 Klasyfikacja dokumentów ...................................................................................... 260 Rozdziaä 10. Drzewa decyzyjne firmy Microsoft i algorytm regresji liniowej firmy Microsoft .......................................... 267 Omówienie ................................................................................................................... 268 Ograniczenia .......................................................................................................... 272 Parametry ............................................................................................................... 273 Zastosowania drzew decyzyjnych ................................................................................ 275 Klasyfikacja klientów ............................................................................................. 275 Szacowanie potencjalnych zysków ........................................................................ 277 Asocjacja klientów i wypoĪyczanych przez nich filmów ........................................... 279 Rozdziaä 11. Szeregi czasowe firmy Microsoft ......................................................... 281 Omówienie ................................................................................................................... 281 Ograniczenia .......................................................................................................... 285 Parametry ............................................................................................................... 286 Zastosowania szeregów czasowych firmy Microsoft .................................................... 288 Prognozowanie sprzedaĪy ...................................................................................... 289 Prognozowanie sprzedaĪy na podstawie przeplatanych serii danych ..................... 291 Prognozowanie sprzedaĪy na podstawie danych odczytanych z kostki wielowymiarowej ................................................................................... 292 Prognozowanie sprzedaĪy na podstawie krótkich serii danych .............................. 293 Analiza wariantowa ................................................................................................ 295 Rozdziaä 12. Algorytm klastrowania firmy Microsoft ................................................ 297 Omówienie ................................................................................................................... 297 Ograniczenia .......................................................................................................... 302 Parametry ............................................................................................................... 303 Zastosowania algorytmu klastrowania .......................................................................... 305 Analiza skupieĔ komórek ....................................................................................... 305 Klasyfikacja komórek ............................................................................................. 309 Przygotowanie danych do dalszej eksploracji ........................................................ 312 Wykrywanie anomalii ............................................................................................ 314 Spis treĈci 7 Rozdziaä 13. Algorytm klastrowania sekwencyjnego firmy Microsoft ....................... 319 Omówienie ................................................................................................................... 320 Ograniczenia .......................................................................................................... 323 Parametry ............................................................................................................... 323 Zastosowania algorytmu klastrowania sekwencyjnego ................................................ 324 Analiza sekwencji odwiedzanych stron WWW ...................................................... 324 Klasyfikacja klientów na podstawie kolejnoĞci kupowanych przez nich towarów ............................................................................................................... 327 Przewidywanie kolejnych zdarzeĔ ......................................................................... 329 Wykrywanie nietypowych sekwencji zdarzeĔ ........................................................ 332 Rozdziaä 14. Algorytm odkrywania reguä asocjacyjnych firmy Microsoft ................... 335 Omówienie ................................................................................................................... 336 Ograniczenia .......................................................................................................... 340 Parametry ............................................................................................................... 341 Zastosowania reguá asocjacyjnych ................................................................................ 341 Badanie zaleĪnoĞci pomiĊdzy wartoĞciami atrybutów ........................................... 342 Analiza koszykowa ................................................................................................ 343 Analiza typu cross-selling ...................................................................................... 347 Rozdziaä 15. Sieci neuronowe firmy Microsoft i algorytm regresji logistycznej firmy Microsoft .................................... 351 Omówienie ................................................................................................................... 352 Ograniczenia .......................................................................................................... 358 Parametry ............................................................................................................... 360 Zastosowania sieci neuronowych i regresji logistycznej .............................................. 361 Szacowanie potencjalnych zysków ........................................................................ 362 Klasyfikacja dokumentów ...................................................................................... 366 Rozdziaä 16. Ocena i poprawa modeli ...................................................................... 369 Powrót do Ğredniej ........................................................................................................ 369 Kryteria porównawcze .................................................................................................. 371 àatwoĞü interpretacji .............................................................................................. 373 DokáadnoĞü predykcji ............................................................................................. 374 WiarygodnoĞü predykcji ......................................................................................... 374 WydajnoĞü i skalowalnoĞü ..................................................................................... 375 PrzydatnoĞü ............................................................................................................ 375 Metody oceniania modeli eksploracji danych ............................................................... 376 Wykresy podniesienia i zysku ................................................................................ 376 Macierz klasyfikacji ............................................................................................... 384 Ocena dokáadnoĞci modeli algorytmu szeregów czasowych firmy Microsoft ........ 386 Walidacja krzyĪowa ............................................................................................... 387 Odchylenie wewnątrz- i miĊdzyklastrowe .............................................................. 390 Problemy ...................................................................................................................... 391 NiewáaĞciwie postawione zadania .......................................................................... 391 NiewáaĞciwe dane Ĩródáowe ................................................................................... 392 Nieprzygotowane dane Ĩródáowe ........................................................................... 393 NiewáaĞciwe lub Ĩle sparametryzowane algorytmy eksploracji danych ................. 394 8 Microsoft SQL Server. Modelowanie i eksploracja danych Rozdziaä 17. Programowanie predykcyjne ............................................................ 397 NarzĊdzia programistyczne .......................................................................................... 397 Wizualizatory modeli eksploracji danych ................................................................. 398 Raporty usáugi SSRS .................................................................................................... 399 Inteligentne aplikacje .................................................................................................... 401 Kontrola poprawnoĞci danych ................................................................................ 401 Uzupeánianie brakujących danych .......................................................................... 404 Adaptacyjny interfejs ............................................................................................. 406 Skorowidz .......................................................................................... 413 Rozdziaä 9. Naiwny klasyfikator Bayesa firmy Microsoft  Dlaczego klasyfikator Bayesa nazywany jest naiwnym?  Jakie są wady i zalety naiwnego klasyfikatora Bayesa firmy Microsoft?  Jak tworzyü modele eksploracji danych uĪywające naiwnego klasyfikatora Bayesa firmy Microsoft?  Jak parametryzowaü naiwny klasyfikator Bayesa firmy Microsoft?  Jak za pomocą naiwnego klasyfikatora Bayesa firmy Microsoft badaü zaleĪnoĞci pomiĊdzy atrybutami?  Jak zbudowaü klasyfikujący dokumenty filtr antyspamowy przy uĪyciu naiwnego klasyfikatora Bayesa firmy Microsoft? Nazwy wszystkich przedstawionych algorytmów eksploracji danych zawierajñ okre- Ĉlenie firmy Microsoft nie dlatego, Ĕe algorytmy te zostaäy wymyĈlone przez Micro- soft, ale dlatego, Ĕe to ta firma stworzyäa zastosowane w serwerze SQL implemen- tacje tych algorytmów. Omówienie Opracowany przez brytyjskiego matematyka i prezbiteriaĔskiego duchownego Tho- masa Bayesa klasyfikator naleĪy do klasycznych algorytmów uczenia przez obserwacjĊ1. WyobraĨmy sobie, Īe spĊdzamy wolny czas, obserwując klientów wáaĞnie otwartego butiku. Interesuje nas, kto (kobieta czy mĊĪczyzna) za chwilĊ wejdzie do tego sklepu. 1 BĊdące podstawą opisywanego klasyfikatora twierdzenie Bayesa zostaáo opublikowane w wydanym w 1763 roku eseju Essay Towards Solving a Problem in the Doctrine of Chances. Dokument ten jest dostĊpny pod adresem http://www.stat.ucla.edu/history/essay.pdf. 254 CzöĈè II i Eksploracja PoniewaĪ w naszym miasteczku mieszka wiĊcej kobiet niĪ mĊĪczyzn (60 mieszkaĔ- ców to kobiety, a 40 — mĊĪczyĨni), początkowo prawdopodobieĔstwo, Īe klientem bĊ- dzie kobieta, wynosi 60 . Jednak po pewnym czasie zebraliĞmy wiĊcej informacji o rozkáadzie dnia klientów i zauwaĪyliĞmy m.in., Īe przed poáudniem butik odwiedzają gáównie (w 80 ) kobiety, a po godzinie 15.00 75 klientów to mĊĪczyĨni. JeĪeli od te- raz usáyszymy, Īe ktoĞ wchodzi do tego sklepu o 11.15, wiemy, Īe prawdopodobnie jest to kobieta (60 *80 = 48 ), a nie mĊĪczyzna (40 *20 = 8 ). Natomiast gdybyĞmy usáyszeli osobĊ wchodzącą do butiku o 15.30, mielibyĞmy podstawy przy- puszczaü, Īe jest to mĊĪczyzna (40 *75 = 30 ), a nie kobieta (60 *25 = 15 ). Ten uproszczony przykáad pokazuje istotĊ naiwnego klasyfikatora Bayesa. Naiwny klasyfikator Bayesa zlicza zaleĪnoĞci wystĊpujące pomiĊdzy atrybutami wyj- Ğciowymi a poszczególnymi atrybutami wejĞciowymi, uwzglĊdniając warunkowe i bez- warunkowe prawdopodobieĔstwo ich wystąpienia: 1. PrawdopodobieĔstwo bezwarunkowe (początkowe) zaleĪy od rozkáadu przypadków — w powyĪszym przykáadzie reprezentowane jest ono przez fakt, Īe 60 mieszkaĔców miasteczka to kobiety. 2. Warunkowe prawdopodobieĔstwo zaleĪy od zaobserwowanych zdarzeĔ — w powyĪszym przykáadzie zaobserwowaliĞmy, Īe 75 klientów odwiedzających butik po poáudniu to mĊĪczyĨni. )2 prawdopodobieĔstwa Obliczone na podstawie twierdzenia Bayesa ( są nastĊpnie mnoĪone, a wiĊc kaĪde z nich ma taki sam wpáyw na ostateczny wynik. To zaáoĪenie jest prawdziwe, o ile poszczególne atrybuty wejĞciowe są od siebie nie- zaleĪne3. W przeciwnym razie wpáyw atrybutu skorelowanego z innym atrybutem jest wiĊkszy, niĪ byü powinien. PoniewaĪ w praktyce atrybuty bardzo czĊsto są ze sobą powiązane (np. wyksztaácenie wpáywa na dochód, wciąĪ teĪ wystĊpuje statystyczna zaleĪnoĞü pomiĊdzy pácią a zawodem), ignorujący je klasyfikator Bayesa nazywa siĊ naiwnym. NaiwnoĞü klasyfikatora Bayesa wynika równieĪ z tego, Īe gdy pewna zaleĪnoĞü nie wystąpiáa w przypadkach treningowych (np. dotychczas w sobotĊ butik odwiedzaáy wyáącznie kobiety), obliczone przez niego prawdopodobieĔstwo, Īe klientem butiku w sobotĊ bĊdzie mĊĪczyzna, wyniesie 0 . Problem ten moĪemy rozwiązaü, dodając 1 do wszystkich przyporządkowaĔ stanów atrybutów do klas wyjĞciowych, czyli stosując estymacjĊ Laplace’a. Obliczanie wyniku poprzez mnoĪenie prawdopodobieĔstw ma jeszcze jedną wadĊ. Je- Īeli te prawdopodobieĔstwa są bardzo maáe, co ma miejsce, gdy lista atrybutów jest dáuga i gdy atrybuty przyjmują wiele stanów, báĊdy ich zaokrąglania zaczynają wpáywaü na wyniki. 2 P(A) oznacza prawdopodobieĔstwo a priori wystąpienia klasy A, tj. prawdopodobieĔstwo, Īe przypadek naleĪy do klasy A; P(B|A) oznacza prawdopodobieĔstwo a posteriori, Īe przypadek A naleĪy do klasy B, natomiast P(B) — prawdopodobieĔstwo a priori wystąpienia przypadku B. 3 NieprzyjĊcia zaáoĪenia o niezaleĪnoĞci zmiennych wejĞciowych wymagaáoby obliczenie kp prawdopodobieĔstw, gdzie p jest liczbą zmiennych, a p — liczbą ich stanów. Na przykáad dla 30 zmiennych binarnych trzeba by wykonaü 230 (1 073 741 824) operacji. Rozdziaä 9. i Naiwny klasyfikator Bayesa firmy Microsoft 255 Ograniczenia Pierwsze ograniczenie wynika ze sposobu dziaáania naiwnego klasyfikator Bayesa — policzenie prawdopodobieĔstwa wystąpienia danego stanu jest moĪliwe tylko dla atrybu- tów dyskretnych, a wiĊc atrybuty ciągáe są ignorowane przez naiwny klasyfikator Bayesa firmy Microsoft. Drugie ograniczenie jest mniej oczywiste — naiwny klasyfikator Bayesa naleĪy do klasyfikatorów liniowych i nie nadaje siĊ do rozwiązywania problemów nieliniowych, czyli takich, w których stan atrybutu wyjĞciowego zaleĪy od kombinacji stanów atry- butów wejĞciowych. Problemem nieliniowym jest np. kwestia okreĞlenia koloru pól na szachownicy. Poáowa pól na szachownicy jest biaáa, druga poáowa — czarna. Czy znając kolumnĊ i wiersz, jesteĞmy w stanie okreĞliü kolor pola znajdującego siĊ na ich przeciĊciu? Spróbujmy uĪyü naiwnego klasyfikatora Bayesa firmy Microsoft do znalezienia od- powiedzi na to pytanie. 1. Otwórz przykáadowy skoroszyt Excela i przejdĨ do arkusza Chessboard. 2. Zaznacz znajdującą siĊ w nim tabelĊ. Jej pierwsza kolumna zawiera litery kolumn, druga — numery wierszy, a trzecia kolory pól szachownicy. 3. Kliknij znajdujący siĊ w sekcji Data Modeling przycisk Classify. 4. Jako parametr wyjĞciowy i wejĞciowy wybierz Color, a jako uĪyty do klasyfikacji algorytm wybierz Microsoft Naive Bayes. 5. Przeznacz wszystkie dane do treningu i zakoĔcz dziaáanie kreatora, tworząc tymczasowy model eksploracji danych. OkaĪe siĊ, Īe algorytm nie znalazá Īadnych zaleĪnoĞci pomiĊdzy kolumną i wierszem pola na szachownicy a kolorem pola znajdującego siĊ na ich przeciĊciu — wszystkie zakáadki wizualizatora bĊdą puste, z wyjątkiem zakáadki Dependency Network, w której znajdziemy wyáącznie wyjĞciowy atrybut Color. Zastanówmy siĊ, od czego zaleĪy kolor pól szachownicy. Czy zaleĪy on od wierszy? Nie, w kaĪdym wierszu 50 pól jest czarnych, a 50 biaáych. Nie zaleĪy on równieĪ od kolumn, lecz od kombinacji wierszy i kolumn. PoniewaĪ naiwny klasyfikator Bayesa jest klasyfikatorem liniowym, nie znalazá powyĪszych zaleĪnoĞci nieliniowych. Tak postawiony problem nie zostaáby rozwiązany równieĪ przez drzewa decyzyjne, czyli klasyfikator nieliniowy — w kaĪdym wierszu i w kaĪdej kolumnie biaáych pól jest dokáadnie tyle samo co czarnych. RóĪnicĊ pomiĊdzy klasyfikatorami liniowymi i nieliniowymi pokazuje kolejny przykáad. Tym razem ksztaát figury równieĪ nie za- leĪy od jego poszczególnych wspóárzĊdnych, ale od ich kombinacji (rysunek 9.1). 1. PrzejdĨ do arkusza Linear. 2. PrzeprowadĨ klasyfikacjĊ znajdujących siĊ w nim danych, wybierając na atrybuty wejĞciowe kolumny RangeX, RangeY i Shape, a na atrybut wyjĞciowy kolumnĊ Shape. 3. Jako uĪyty do klasyfikacji algorytm wybierz Microsoft Naive Bayes. 256 Rysunek 9.1. W pierwszej i trzeciej üwiartce znajdują siĊ wyáącznie krzyĪyki, w drugiej i czwartej — same kwadraty CzöĈè II i Eksploracja 4. Przeznacz wszystkie dane do treningu i zakoĔcz dziaáanie kreatora, tworząc tymczasowy model eksploracji danych. Tym razem algorytm równieĪ nie znajdzie Īadnych zaleĪnoĞci pomiĊdzy wspóárzĊdnymi a ksztaátem figur. Pomimo tych ograniczeĔ naiwny klasyfikator Bayesa firmy Microsoft dobrze radzi sobie z wykrywaniem zaleĪnoĞci pomiĊdzy poszczególnymi atrybutami, a jego prostota (i związane z nią szybkoĞü oraz maáe zapotrzebowanie na pamiĊü i moc obliczeniową), jak równieĪ áatwoĞü interpretacji wyników czynią z niego przydatny i czĊsto uĪywany algorytm eksploracji danych. Parametry Naiwny klasyfikator Bayesa firmy Microsoft przyjmuje nastĊpujące parametry: 1. MAXIMUM_INPUT_ATTRIBUTES — parametr dostĊpny tylko w edycji Enterprise; okreĞla maksymalną liczbĊ atrybutów wejĞciowych (objaĞniających). Po jej przekroczeniu (domyĞlna wartoĞü wynosi 255) analizowanych bĊdzie tylko 255 atrybutów wejĞciowych najsilniej powiązanych z atrybutami wyjĞciowymi (objaĞnianymi). Zmiana tego parametru na 0 spowoduje uwzglĊdnienie wszystkich atrybutów wejĞciowych4. 4 Maksymalna liczba atrybutów wynosi 65 535 i jest tak duĪa, Īe w praktyce nie spotkamy siĊ z wynikającymi z niej ograniczeniami. Z pierwszej czĊĞci ksiąĪki wiadomo, Īe dane wejĞciowe powinny zawieraü jak najwiĊcej informacji (a dokáadnie, Īe entropia atrybutów wejĞciowych wzglĊdem wyjĞciowych powinna byü jak najwiĊksza), tymczasem utworzenie kilkudziesiĊciu tysiĊcy atrybutów raczej zmniejszyáoby (a nie zwiĊkszyáo) iloĞü tych informacji. Ponadto dane wáaĞciwie reprezentujące wszystkie moĪliwe zaleĪnoĞci pomiĊdzy tyloma atrybutami byáyby liczone w milionach terabajtów. Rozdziaä 9. i Naiwny klasyfikator Bayesa firmy Microsoft 257 2. MAXIMUM_OUTPUT_ATTRIBUTES — parametr dostĊpny tylko w edycji Enterprise; okreĞla maksymalną liczbĊ atrybutów wyjĞciowych. Po jej przekroczeniu (domyĞlna wartoĞü wynosi 255) zostanie uwzglĊdnionych tylko 255 najczĊĞciej wystĊpujących atrybutów wyjĞciowych. Zmiana tego parametru na 0 spowoduje uwzglĊdnienie wszystkich atrybutów wyjĞciowych. 3. MAXIMUM_STATES — parametr dostĊpny tylko w edycji Enterprise; okreĞla maksymalną liczbĊ uwzglĊdnianych stanów atrybutów. Po jej przekroczeniu (domyĞlna wartoĞü wynosi 100) analizowanych bĊdzie tylko 100 najczĊĞciej wystĊpujących stanów atrybutów, a pozostaáe zostaną potraktowane jak wartoĞci brakujące. Zmiana tego parametru na 0 spowoduje uwzglĊdnienie wszystkich stanów atrybutów. 4. MINIMUM_DEPENDENCY_PROBABILITY — okreĞla (w skali od 0 do 1) minimalne prawdopodobieĔstwo znalezienia zaleĪnoĞci pomiĊdzy atrybutami wejĞciowymi a wyjĞciowymi. Zmiana tego parametru nie ma Īadnego wpáywu na trening algorytmu, a jedynie na liczbĊ zwracanych (znalezionych) zaleĪnoĞci. DomyĞlna wartoĞü wynosi 0,5 — jest to wartoĞü, przy której wizualizatory tego algorytmu zwracają informacje tylko o zaleĪnoĞciach, których prawdopodobieĔstwo wystąpienia jest wiĊksze od prawdopodobieĔstwa ich braku. ĩeby przekonaü siĊ, jak zmiana parametru MINIMUM_DEPENDENCY_PROBABILITY wpáynie na zdolnoĞü naiwnego klasyfikatora Bayesa firmy Microsoft do rozwiązywania pro- blemów nieliniowych, raz jeszcze przeprowadĨ klasyfikacjĊ kolorów pól na szachow- nicy, tym razem ustawiając wartoĞü tego parametru na 0,01 (rysunek 9.2). Rysunek 9.2. Naiwny klasyfikator Bayesa firmy Microsoft to prosty algorytm eksploracji danych; jego dziaáaniem moĪemy sterowaü w bardzo ograniczonym zakresie Zgodnie z oczekiwaniami obniĪenie wartoĞci tego parametru nie wpáynĊáo na otrzy- mane wyniki — algorytm nadal nie jest w stanie znaleĨü Īadnych zaleĪnoĞci pomiĊdzy kolumną i wierszem pola na szachownicy a jego kolorem. 258 CzöĈè II i Eksploracja Zastosowania naiwnego klasyfikatora Bayesa „NaiwnoĞü” klasyfikatora Bayesa ogranicza jego stosowanie w modelach klasyfikacyj- nych, ale w Īaden sposób nie zmniejsza jego wartoĞci dla modeli opisowych. W szczegól- noĞci jego szybkoĞü i maáe wymagania dotyczące pamiĊci czynią z niego doskonaáe narzĊdzie do oceny danych wejĞciowych. Drugi z opisanych poniĪej przykáadów demonstruje predykcyjne moĪliwoĞci naiwne- go klasyfikatora Bayesa — jeĪeli tylko atrybuty wejĞciowe rzeczywiĞcie są od siebie niezaleĪne lub ewentualne zaleĪnoĞci miĊdzy nimi są nieistotne w ramach przyjĊtego modelu (jak ma to miejsce np. podczas oceniania wiadomoĞci e-mail na podstawie po- szczególnych sáów, czy jest ona spamem), algorytm ten okazuje siĊ szybkim i dokáad- nym klasyfikatorem. W serwerze SQL klasyfikator Bayesa firmy Microsoft stosowany jest do klasyfikacji i — z pewnymi ograniczeniami — asocjacji. Badanie zaleĔnoĈci pomiödzy atrybutami Naiwny klasyfikator Bayesa firmy Microsoft doskonale nadaje siĊ (o czym powiedziano w rozdziale 3.) do analizowania zaleĪnoĞci pomiĊdzy atrybutami. W tym punkcie utworzymy model analizujący zaleĪnoĞci pomiĊdzy atrybutami klientów firmy Adven- ture Works: 1. Uruchom konsolĊ SSMS i poáącz siĊ z serwerem SSAS. 2. Zaznacz bazĊ analityczną DataMining i wyĞwietl okno edytora DMX. 3. Utwórz w tej bazie poniĪszy model eksploracji danych (tworząc model za pomocą instrukcji CREATE MINING MODEL, automatycznie utworzymy strukturĊ o nazwie tworzonego modelu, uzupeánioną o sufiks _Structure): CREATE MINING MODEL CustomersAnalysis ( [ID] LONG KEY, [Age] LONG DISCRETIZED(CLUSTERS,5), [MaritalStatus] TEXT DISCRETE PREDICT, [Gender] TEXT DISCRETE PREDICT, [TotalChildren] LONG DISCRETE PREDICT, [NumberChildrenAtHome] LONG DISCRETE PREDICT, [Education] TEXT DISCRETE PREDICT, [Occupation] TEXT DISCRETE PREDICT, [YearlyIncome] LONG DISCRETIZED(CLUSTERS,8), [HouseOwnerFlag] TEXT DISCRETE PREDICT, [NumberCarsOwned] LONG DISCRETE PREDICT, [TotalAmount] LONG DISCRETIZED(CLUSTERS,8) PREDICT, [TotalQuantity] LONG DISCRETE PREDICT, [BikesQuantity] LONG DISCRETE PREDICT, [BikesAmount] LONG DISCRETIZED(CLUSTERS,8) PREDICT, Rozdziaä 9. i Naiwny klasyfikator Bayesa firmy Microsoft 259 [ClothingQuantity] LONG DISCRETE PREDICT, [ClothingAmount] LONG DISCRETIZED(CLUSTERS,8) PREDICT, [AccessoriesQuantity] LONG DISCRETE PREDICT, [AccessoriesAmount] LONG DISCRETIZED(CLUSTERS,8) PREDICT, [MonthsAsCustomer] LONG DISCRETIZED(CLUSTERS,10) PREDICT ) USING Microsoft_Naive_Bayes Zwróü uwagĊ, Īe wszystkie atrybuty są dyskretne lub poddane dyskretyzacji oraz Īe wszystkie one zostaáy uĪyte w roli atrybutów wejĞciowych i wyjĞciowych. Utwórz, np. korzystając z doáączonego do ksiąĪki skryptu XMLA, Ĩródáo danych Adventure Works DW i skonfiguruj nazwĊ i hasáo uĪytkownika, z którego uprawnieniami serwer SSAS bĊdzie áączyá siĊ z tym Ĩródáem danych, a nastĊpnie przetwórz ten mo- del, wykonując poniĪszą instrukcjĊ: INSERT INTO CustomersAnalysis([ID], [Age], [MaritalStatus], [Gender], [TotalChildren] ,[NumberChildrenAtHome], [Education], [Occupation], [YearlyIncome], [HouseOwnerFlag] ,[NumberCarsOwned], [TotalAmount], [TotalQuantity], [BikesQuantity], [BikesAmount] ,[ClothingQuantity], [ClothingAmount], [AccessoriesQuantity], [AccessoriesAmount] ,[MonthsAsCustomer]) OPENQUERY ([Adventure Works DW], SELECT [ID], [Age], [MaritalStatus], [Gender], [TotalChildren], [NumberChildrenAtHome], [Education], [Occupation], [YearlyIncome], [HouseOwnerFlag], [NumberCarsOwned], [TotalAmount], [TotalQuantity], [BikesQuantity], [BikesAmount], [ClothingQuantity], [ClothingAmount], [AccessoriesQuantity], [AccessoriesAmount] ,[MonthsAsCustomer] FROM [dbo].[CustomersHistoryTrain] ) Po wyĞwietleniu raportu Dependency Network (Īeby wyĞwietliü okno z wizualizatorami bezpoĞrednio z konsoli SSMS, naleĪy kliknąü model eksploracji danych i wybraü z menu kontekstowego Browse) przekonamy siĊ, Īe uĪywany w poprzednich modelach w roli atrybutu wyjĞciowego atrybut TotalAmount jest silnie powiązany nie tylko z atrybu- tami opisującymi klientów (takimi jak Age, Occupation czy TotalChildren), ale równieĪ z atrybutami opisującymi historiĊ zakupów tych klientów (takimi jak AccessoriesAmount, BikesAmount, ClothingAmount czy TotalQuantity). Jednak te ostatnie atrybuty są silnie powiązane nie tylko z objaĞnianym atrybutem TotalAmount, ale równieĪ ze sobą na- wzajem. Z rozdziaáu 5. wiadomo, Īe w modelach klasyfikacyjnych nie naleĪy uĪywaü w roli atrybutów wejĞciowych silnie powiązanych ze sobą atrybutów, dlatego atry- buty te nie byáy uĪywane w utworzonych wczeĞniej modelach. Raport zaleĪnoĞci nie zawiera informacji na temat stanów poszczególnych atrybutów. Te dane znajdziemy w pozostaáych raportach wizualizatora naiwnego klasyfikatora Bayesa firmy Microsoft lub odczytując strukturĊ modelu. Wizualizator kaĪdego algo- rytmu eksploracji danych moĪna zastąpiü ogólnym wizualizatorem Microsoft Generic Content Tree Viewer, zwracającym informacjĊ na temat struktury modelu. WyĞwietl go, a nastĊpnie z listy wĊzáów modelu wybierz wĊzeá opisujący zaleĪnoĞci pomiĊdzy atrybutem Education a poszczególnymi stanami atrybutu TotalAmount (ry- sunek 9.3). 260 CzöĈè II i Eksploracja Rysunek 9.3. Szczegóáowe informacje na temat modeli eksploracji danych wraz z ich formatowaniem moĪna skopiowaü do schowka i wkleiü np. do dokumentu Worda Modele naiwnego klasyfikatora Bayesa firmy Microsoft liczą tyle wĊzáów drugiego poziomu (wĊzáów typu 9.), ile jest zdefiniowanych atrybutów wejĞciowych (wĊzáem pierwszego poziomu jest sam model eksploracji danych). ListĊ tych wĊzáów wraz z ich identyfikatorami moĪna odczytaü, wywoáując poniĪszą procedurĊ: CALL GetPredictableAttributes ( CustomersAnalysis ) Na trzecim poziomie znajdują siĊ wĊzáy zawierające atrybuty wejĞciowe (wĊzáy typu 10.), a na czwartym (w wĊzáach typu 11.) — znalezione zaleĪnoĞci pomiĊdzy poszczególnymi atrybutami wejĞciowymi a atrybutem wyjĞciowym, nadrzĊdnym dla danego wĊzáa. Klasyfikacja dokumentów Analiza dokumentów tekstowych wymaga ich wczeĞniejszego podzielenia na frazy — to wystĊpowanie lub brak w dokumencie poszczególnych fraz bĊdzie podstawą ich oceny. Analiza dokumentów tekstowych przypomina wiĊc analizĊ koszykową: koszyki zakupów analizowane są pod kątem wystĊpowania w nich poszczególnych towarów, dokumenty tekstowe — pod kątem wystĊpowania w nich poszczególnych fraz. Podzielone na frazy dokumenty mogą byü: 1. Klasyfikowane — frazy zapisane w tabeli zagnieĪdĪonej bĊdą podstawą zaklasyfikowania dokumentu np. jako spam. Rozdziaä 9. i Naiwny klasyfikator Bayesa firmy Microsoft 261 2. Dzielone na segmenty na podstawie czĊstotliwoĞci wystĊpowania w nich poszczególnych fraz. 3. Kojarzone ze sobą na podstawie wystĊpujących w nich fraz. W tym punkcie przeprowadzimy klasyfikacjĊ wiadomoĞci e-mail. Wymaga to: 1. Zbudowania sáownika zawierającego wszystkie frazy wystĊpujące w tych dokumentach. 2. Dekompozycji poszczególnych dokumentów na frazy zapisane w sáowniku. 3. Zbudowania modelu klasyfikacyjnego. 4. RozáoĪenia ocenianych dokumentów na frazy i sklasyfikowania ich przy uĪyciu zbudowanego modelu. Do zbudowania sáownika uĪyjemy transformacji Term Extraction usáugi SSIS: 1. Uruchom Business Intelligence Development Studio, utwórz nowy projekt typu Integration Services i nazwij go Text Analysis. 2. Dodaj do pakietu SSIS zadanie Data Flow Task i nazwij je Build Dictionary. 3. PrzejdĨ na zakáadkĊ Data Flow. 4. Dodaj do zadania Build Dictionary transformacjĊ ADO.NET Source i pobierz za jego pomocą dane z tabeli EMails, znajdującej siĊ w przykáadowej bazie danych DataMiningDW. 5. Dodaj do tego zadania transformacjĊ Term Extraction i poáącz ją z domyĞlnym (zielonym) wyjĞciem utworzonego Ĩródáa danych. 6. Dwukrotnie kliknij tĊ transformacjĊ — wyĞwietli siĊ okno edytora Term Extraction Transformation Editor: a) Na zakáadce Term Extraction wybierz kolumnĊ, w której przechowywane są treĞci wiadomoĞci e-mail (rysunek 9.4). b) Zakáadka Exclusion pozwala wskazaü tabelĊ zawierającą frazy wykluczone ze sáownika. c) PrzejdĨ na zakáadkĊ Advanced. Pozwala ona skonfigurowaü sposób rozkáadania tekstu na frazy: m.in. to, czy ma on byü dzielony na pojedyncze wyrazy lub tylko na frazy, wybraü sposób oceniania fraz (mogą byü one oceniane tylko na podstawie czĊstotliwoĞci wystĊpowania w danym dokumencie oraz z uwzglĊdnieniem tego, jak czĊsto fraza wystĊpowaáa we wszystkich dokumentach5), minimalną liczbĊ wystąpieĔ fraz oraz ich maksymalną dáugoĞü w sáowach. 7. Zamknij okno edytora przyciskiem OK. 5 Ocena frazy jest tym wyĪsza, im czĊĞciej wystĊpuje ona w dokumencie, ale metoda TFIDF dodatkowo obniĪa oceny fraz czĊsto wystĊpujących we wszystkich dokumentach. 262 CzöĈè II i Eksploracja Rysunek 9.4. Wynikiem transformacji bĊdą dwie nowe kolumny: w kolumnie o domyĞlnej nazwie Term zostaną zapisane frazy znaczeniowe, w kolumnie Score — punkty obliczone na podstawie czĊstotliwoĞci ich wystĊpowania 8. Dodaj do zadania transformacjĊ ADO.NET Destination i utwórz za pomocą tego zadania w bazie danych DataMining tabelĊ Dictionary, w której zapisane zostaną frazy i ich oceny. 9. Uruchom pakiet SSIS (rysunek 9.5). Po zbudowaniu sáownika moĪemy rozáoĪyü poszczególne wiadomoĞci e-mail na frazy: 1. PrzejdĨ do zakáadki Control Flow, dodaj do pakietu kolejne zadanie Data Flow Task i nazwij je Decompose Documents. 2. Poáącz zadanie Build Dictionary z zadaniem Decompose Documents — w ten sposób najpierw zostanie utworzony sáownik, który nastĊpnie zostanie uĪyty do dekompozycji wiadomoĞci e-mail. 3. Kliknij dwukrotnie to zadanie lewym przyciskiem myszy — wyĞwietli siĊ ono w edytorze przepáywu danych. 4. Dodaj do zadania Decompose Documents transformacjĊ ADO.NET Source i pobierz za jego pomocą dane z tabeli EMails znajdującej siĊ w przykáadowej bazie danych DataMiningDW. 5. Dodaj do tego zadania transformacjĊ Term Lookup i poáącz ją z domyĞlnym (zielonym) wyjĞciem utworzonego Ĩródáa danych. Rozdziaä 9. i Naiwny klasyfikator Bayesa firmy Microsoft 263 Rysunek 9.5. Pakiet SSIS tworzący sáownik fraz wystĊpujących w wiadomoĞciach e-mail (frazy zostaáy pokazane poprzez klikniĊcie strzaáki áączącej dwa ostatnie zadania i wybranie opcji Enable Data Viewer) 6. Dwukrotnie kliknij tĊ transformacjĊ — wyĞwietli siĊ okno edytora Term Lookup Transformation Editor: a) Zakáadka Reference Table pozwala wskazaü tabelĊ sáownikową — poáącz siĊ z bazą DataMiningDW i wybierz tabelĊ Dictionary. b) PrzejdĨ na zakáadkĊ Term Lookup i poáącz kolumnĊ Body tabeli Emails z kolumną Term tabeli Dictionary. PoniewaĪ tabela utworzona za pomocą tej transformacji bĊdzie musiaáa zostaü powiązana z nadrzĊdną tabelą Emials, dodaj do jej wyniku zawartoĞü kolumny ID (rysunek 9.6). c) ZatwierdĨ zmiany przyciskiem OK. 7. Dodaj do zadania transformacjĊ ADO.NET Destination i utwórz za jego pomocą w bazie danych DataMinigDW tabelĊ EmailsFragments, w której zapisane zostaną zdekomponowane wiadomoĞci e-mail. ĩeby ponowne uruchomienie pakietu nie powodowaáo duplikowania wierszy zapisanych w tabelach Dictionary i EmailsFragments: 1. Dodaj do niego zadanie Execute T-SQL Statement Task. 2. Poáącz je z lokalnym serwerem SQL. CzöĈè II i Eksploracja 264 Rysunek 9.6. Transformacja Term Lookup pozwoli nam zapisaü w tabeli podrzĊdnej fraz informacje o tym, ile razy wystąpiáy one w kaĪdym dokumencie, oraz identyfikatory dokumentów, w których te frazy zostaáy znalezione 3. W polu T-SQL Statement wpisz poniĪsze instrukcje: USE DataMiningDW GO IF EXISTS (SELECT * FROM sys.tables WHERE name= Dictionary ) TRUNCATE TABLE dbo.Dictionary GO IF EXISTS (SELECT * FROM sys.tables WHERE name= EmailsFragments ) TRUNCATE TABLE dbo.EmailsFragments GO 4. Poáącz to zadanie z zadaniem Build Dictionary. 5. Uruchom i zapisz gotowy pakiet SSIS. Dysponując przygotowanymi w ten sposób danymi Ĩródáowymi, moĪemy juĪ zbudo- waü model klasyfikujący dokumenty. Nasz model bĊdzie je klasyfikowaá wyáącznie na podstawie tematów i priorytetów wiadomoĞci oraz znajdujących siĊ w nich fraz — to, ile razy wystĊpuje w nich dana fraza, pominiemy. Dla odmiany model ten utwo- rzymy w Ğrodowisku BIDS: Rozdziaä 9. i Naiwny klasyfikator Bayesa firmy Microsoft 265 1. Poáącz siĊ z analityczną bazą danych DataMining. 2. Utwórz nowy widok danych Ĩródáowych i dodaj do niego tabele Emails i EmailsFragments. 3. Poáącz te tabele, przeciągając kolumnĊ ID tabeli EmailsFragments do kolumny ID tabeli Emails. 4. Analizując przykáadowe dane, zwróü uwagĊ, Īe zaledwie 371 (1,5 ) fraz pochodzi z wiadomoĞci oznaczonych jako spam. PoniewaĪ nasz model ma klasyfikowaü dokumenty, musimy zmieniü rozkáad atrybutu wyjĞciowego, sztucznie zwiĊkszając czĊstotliwoĞü wystĊpowania fraz wskazujących na niechciane wiadomoĞci: a) Dodaj do widoku danych Ĩródáowych nazwane zapytanie SelectedFragments. b) Odczytaj w tym zapytaniu wszystkie fragmenty niechcianych wiadomoĞci uzupeánione o 2 losowo wybranych fragmentów pozostaáych wiadomoĞci: SELECT E.ID, Term, Frequency, NEWID() as n FROM dbo.EmailsFragments AS F JOIN dbo.EMails AS E ON E.ID=F.ID WHERE E.Category= SPAM UNION ALL SELECT TOP 2 PERCENT E.ID, Term, Frequency, NEWID() FROM dbo.EmailsFragments AS F JOIN dbo.EMails AS E ON E.ID=F.ID WHERE E.Category SPAM ORDER BY NEWID(); c) Poáącz utworzone zapytanie z tabelą Emails, przeciągając jego kolumnĊ ID do kolumny ID tabeli Emails. 5. Zapisz zmiany i zamknij edytor widoku danych Ĩródáowych. 6. Z wykorzystaniem kreatora utwórz nową strukturĊ i model eksploracji danych: a) Pobierz dane z tabel relacyjnej bazy danych. b) Wybierz naiwny klasyfikator Bayesa firmy Microsoft. c) WskaĪ widok danych Ĩródáowych utworzony w poprzednich punktach. d) Na tabelĊ nadrzĊdną (ang. Case) wybierz tabelĊ Emails, na tabelĊ zagnieĪdĪoną (ang. Nested) — nazwane zapytanie SelectedFragments. e) Zaznacz kolumnĊ klucza zagnieĪdĪonego przypadku (kolumnĊ Term), dodaj do listy wejĞciowych atrybutów kolumny Category, Prioryty i Subject, a na atrybut wyjĞciowy wybierz kolumnĊ Category. f) UĪyj wszystkich danych jako przypadków treningowych. g) Zwróü uwagĊ, Īe naiwny klasyfikator Bayesa firmy Microsoft nie umoĪliwia zaznaczenia opcji Allow drill through (przedstawiona w poprzednim punkcie struktura modeli tego algorytmu jest maáo intuicyjna i nie pozwala w prosty sposób powiązaü znalezionych zaleĪnoĞci z poszczególnymi przypadkami). ZakoĔcz pracĊ kreatora. 266 CzöĈè II i Eksploracja 7. Przetwórz zbudowany model. WyĞwietlą siĊ dwa ostrzeĪenia: a) Automatic feature selection has been applied to model, due to the large number of attributes. Set MAXIMUM_INPUT_ATTRIBUTES and/or MAXIMUM_OUTPUT_ATTRIBUTES to increase the number of attributes considered by the algorithm — to ostrzeĪenie dotyczy zagnieĪdĪonego atrybutu Term. b) Cardinality reduction has been applied on column, Subject of model, E Mails due to the large number of states in that column. Set MAXIMUM_STATES to increase the number of states considered by the algorithm — to ostrzeĪenie dotyczy atrybutu Subject. 8. WyĞwietl okno wáaĞciwoĞci algorytmu i ustaw na 0 wartoĞci parametrów MAXIMUM_INPUT_ATTRIBUTES oraz MAXIMUM_STATES. 9. Ponownie przetwórz model eksploracji danych i zapoznaj siĊ z jego wynikami. 10. PrzejdĨ na zakáadkĊ Data Mining Prediction i wykonaj zapytanie czasu rzeczywistego, oceniające, czy e-mail zawierający wybrane frazy bĊdzie sklasyfikowany jako spam (rysunek 9.7). Rysunek 9.7. Business Intelligence Development Studio pozwala wybraü z listy wartoĞci zagnieĪdĪonego atrybutu te, których chcemy uĪyü w zapytaniach czasu rzeczywistego Skorowidz A abstrakcja, 30 adaptacyjny interfejs, 406 AdventureWorksDW, 16, 52 algorytmy CART, 268 drzew decyzyjnych, 72, 166 ID3, 268 klastrowania, 297 klastrowania sekwencyjnego, 319 odkrywania reguá asocjacyjnych, 335 regresji liniowej, 267 regresji logistycznej, 351 anachronizmy, 76 analiza biznesowa, 35 dokumentów tekstowych, 260 koszykowa, 142, 335, 343 odwiedzin stron WWW, 324 sekwencyjna, 151 skupieĔ komórek, 305 typu cross-selling, 347 wariantowa, 111, 152, 295 zaleĪnoĞci pomiĊdzy atrybutami, 73, 258, 342 anomalie, 149, 314, 332 aplikacje inteligentne, 401 architektura SSAS, 219 asocjacja, 141, 177, 279 atrybuty, 57, 227 bez wartoĞci, 237 ciągáe, 57, 86 dyskretne, 57, 81 grupowanie, 81 jednowartoĞciowe, 57 monotoniczne, 59 nadmiarowe, 75 niezaleĪne, 74 okresowe, 86 porządkowe, 85 rozkáad wartoĞci, 59 stany, 57 tekstowe, 68 wielowartoĞciowe, 57 zaleĪnoĞci, 73, 258, 342 AUTO_DETECT_PERIODICITY, 286 B Bayesa naiwny klasyfikator, 72, 253 analiza dokumentów tekstowych, 260 analiza zaleĪnoĞci pomiĊdzy atrybutami, 258 ograniczenia, 255 omówienie, 253 parametry, 256 zastosowania, 258 bazy danych AdventureWorksDW, 16 DataMiningDW, 17 DataMiningSolutions, 19 bezpieczeĔstwo SSAS, 221 Bias, 50 BIDS, 162, 192 interfejs, 193 tryb offline, 194 tryb online, 194 bity informacji, 77 báĊdy pomiaru, 50 przypadkowy, 51 systematyczny, 50 brakujące dane, 69 uzupeánienie, 404 Breiman, Leo, 268 Business Intelligence Development Studio, Patrz BIDS 414 Microsoft SQL Server. Modelowanie i eksploracja danych C cele eksploracji danych, 35 modelowania, 35 ciągáe atrybuty, 57, 86 CLUSTER_COUNT, 303, 323 CLUSTER_SEED, 303 CLUSTERING_METHOD, 304 Co bĊdzie, jeĪeli?, 155 COMPLEXITY_PENALTY, 273, 286 CRISP-DM, 11 cross-selling, 347 czynniki kluczowe, 128, 129 D dane brakujące, 69, 404 diagnostyczne, 115 dla modeli deskrypcyjnych, 108 dla modeli predykcyjnych, 109 duplikaty, 62 integralnoĞü, 62 kontrola poprawnoĞci, 401 korelacja, 106 modelowanie, 27 na potrzeby analizy wariantowej, 111 ocena, 49, 121 oczyszczanie, 122 odchylenie standardowe, 67 opisywanie, 36 podziaá, 124 poprawa jakoĞci, 99 profilowanie, 54 próbkowanie, 64 przygotowanie, 79 do dalszej eksploracji, 312 reprezentatywnoĞü, 64 serie, 92 krótkie, 293 przeplatane, 291 testowe, 113 treningowe, 114 filtrowanie, 209 wyniki eksploracji, 42 wzbogacenie, 103 zakres wartoĞci, 63 zbieĪnoĞü, 65 zewnĊtrzne, 162 zgodnoĞü ze wzorcem, 63 Ĩródáa, 195, 240 Ĩródáowe, 40, 49, 121 nieprzygotowane, 393 niewáaĞciwe, 392 widoki, 196 Data Mining, 15, 121, 162 analiza koszykowa, 142 dane Ĩródáowe, 121 instalacja, 15 ocena danych, 121 oczyszczanie danych, 122 podziaá danych, 124 Data Mining Extensions to SQL, Patrz DMX Data Profile Viewer, 55 DataMiningDW, 17 DataMiningSolutions, 19 decydenci, 38 decyzje mapa, 37 modelowanie, 31 typy, 36 wspomaganie, 25, 36 deskrypcyjne modele eksploracji danych, 43, 108 diagnostyczne dane, 115 diagramy Ishikawy, 40 DMCONTENTQUERY, 191 DMPREDICT, 191 DMPREDICTTABLEROW, 191 DMX, 227 funkcje predykcyjne, 251 modele eksploracji danych, 235 odczytywanie zawartoĞci, 243 przetwarzanie, 239 skáadnia, 232 struktury eksploracji danych, 233 odczytywanie zawartoĞci, 243 przetwarzanie, 239 wstawianie wierszy, 242, 243 wybieranie przypadków, 239 zagnieĪdĪanie przypadków, 236 zagnieĪdĪanie tabel, 234 zapytania predykcyjne, 245 Ĩródáa danych, 240 dokáadnoĞü predykcji modeli eksploracji danych, 374 dokumenty tekstowe, 260 drzewa decyzyjne, 72, 166, 267 asocjacja, 279 klasyfikacja, 275 ograniczenia, 272 omówienie, 268 parametry, 273 szacowanie, 277 zastosowania, 275 Dudek, Daniel, 398 duplikaty, 62 dyskretne atrybuty, 57, 81 dyskretyzacja, 90 Skorowidz 415 E eksploracja danych, 9, 25, 32, 117 cele, 35 dane Ĩródáowe, 40 etapy, 10 formuáowanie problemu, 33 hipotezy, 32 kontekst, 40 modele, 182, 184, 206, 232, 235 dane brakujące, 70 deskrypcyjne, 43 dokáadnoĞü predykcji, 374 korzystanie, 185 kryteria porównawcze, 371 áatwoĞü interpretacji, 373 ocena, 369, 376 odczytywanie zawartoĞci, 243 poprawa, 369 powrót do Ğredniej, 369 predykcyjne, 43 problemy, 391 przetwarzanie, 210, 220, 239 przydatnoĞü, 375 skalowalnoĞü, 375 wiarygodnoĞü predykcji, 374 wizualizatory, 398 wstawianie wierszy, 242 wydajnoĞü, 375 zarządzanie, 190 zarządzanie poprzez SSMS, 216 narzĊdzia, 162 ocena ryzyka, 45 proces, 10, 11 serwer SQL, 218 struktury, 182, 199, 231 odczytywanie zawartoĞci, 243 przetwarzanie, 204, 220, 239 wstawianie wierszy, 242 sukces projektu, 44 techniki, 119, 126 wyniki, 42 zakres projektu, 39 zastosowania, 119 entropia, 78 etapy eksploracji danych, 10 Excel, 15 asocjacja, 177 formuáy, 191 grupowanie, 173 jako klient SSAS, 162 klasyfikacja, 163 modele eksploracji danych, 182, 184 narzĊdzia eksploracji danych, 162 prognozowanie, 179 struktury eksploracji danych, 182 szacowanie, 170 wersja demonstracyjna, 15 F filtrowanie danych treningowych, 209 FORCE_REGRESSOR, 273 FORECAST_METHOD, 286 formuáowanie problemu, 33 formuáy arkusza Excel, 191 Friedman, Jerome, 268 funkcje Co bĊdzie, jeĪeli?, 155 predykcyjne, 251 szukania wyniku, 153 uzupeániania, 132, 136 wykrywania anomalii, 149 wykrywania kategorii, 146 Fuzzy Grouping, 82 G Garbage In, Garbage Out, 49 grupowanie, 81, 145, 173 funkcja wykrywania kategorii, 146 rozmyte, 82 H HIDDEN_NODE_RATIO, 360 hipotezy, 32 HISTORIC_MODEL_COUNT, 286, 386 HISTORIC_MODEL_GAP, 286, 386 HOLDOUT_PERCENTAGE, 360 HOLDOUT_SEED, 360 Hopfield, John, 352 I INSTABILITY_SENSITIVITY, 287 instalacja informacje bity, 77 kontekst, 78 mierzenie, 76 modelowanie, 27 zaskakujące, 77 Data Mining, 15 serwera SQL, 13 integracja serwera SQL z SSAS, 223 z SSIS, 226 z SSRS, 226 416 Microsoft SQL Server. Modelowanie i eksploracja danych integralnoĞü danych, 62 inteligentne aplikacje, 401 adaptacyjny interfejs, 406 kontrola poprawnoĞci danych, 401 uzupeánianie brakujących danych, 404 interfejs adaptacyjny, 406 Ishikawy diagramy, 40 J jakoĞü danych, 99 jeden do wielu, 84 jednowartoĞciowe atrybuty, 57 K kalkulator predykcyjny, 138 kategorie, 146 klastrowanie, 297 analiza skupieĔ komórek, 305 klasyfikacja, 309 ograniczenia, 302 omówienie, 297 parametry, 303 przygotowanie danych do dalszej eksploracji, 312 szacowanie, 309 wykrywanie anomalii, 314 zastosowania, 305 klastrowanie sekwencyjne, 319 analiza odwiedzin stron WWW, 324 klasyfikacja, 327 ograniczenia, 323 omówienie, 320 parametry, 323 przewidywanie kolejnych zdarzeĔ, 329 wykrywanie anomalii, 332 zastosowania, 324 klasyczna standaryzacja, 89 klasyfikacja, 109, 126, 163, 275, 309, 327, 366 funkcja uzupeániania, 132 wykrycie kluczowych czynników, 128, 129 zapytanie predykcyjne, 134 klasyfikator naiwny Bayesa, 72, 253 analiza dokumentów tekstowych, 260 analiza zaleĪnoĞci pomiĊdzy atrybutami, 258 ograniczenia, 255 omówienie, 253 parametry, 256 zastosowania, 258 klucze, 230 kluczowe czynniki, 128, 129 káopoty ze sformuáowaniem problemu, 33 kodowanie jeden do wielu, 84 wiele do wielu, 85 kontekst eksploracji danych, 40 informacji, 78 kontrola poprawnoĞci danych, 401 korelacja danych, 106 korzystanie z modeli eksploracji danych, 185 kostka wielowymiarowa, 292 kryteria porównawcze modeli eksploracji danych, 371 ã áaĔcuch Markowa, 320 áatwoĞü interpretacji modeli eksploracji danych, 373 M macierz klasyfikacji, 384 mapa decyzji, 37 Market Basket Analysis, 142 Markowa áaĔcuch, 320 MAXIMUM_INPUT_ATTRIBUTES, 273, 304, 361 MAXIMUM_ITEMSET_COUNT, 341 MAXIMUM_ITEMSET_SIZE, 341 MAXIMUM_OUTPUT_ATTRIBUTES, 273, 361 MAXIMUM_SEQUENCE_STATES, 323 MAXIMUM_SERIES_VALUE, 287 MAXIMUM_STATES, 304, 323, 361 MAXIMUM_SUPPORT, 341 McCulloch, Warren, 352 metody oceny modeli eksploracji danych, 376 macierz klasyfikacji, 384 odchylenie miĊdzyklastrowe, 390 odchylenie wewnątrzklastrowe, 390 walidacja krzyĪowa, 387 wykres podniesienia, 376 wykres punktowy, 381 wykres zysku, 376 Microsoft drzewa decyzyjne, 267 klastrowanie, 297 klastrowanie sekwencyjne, 319 naiwny klasyfikator Bayesa, 253 odkrywanie reguá asocjacyjnych, 335 regresja liniowa, 267 regresja logistyczna, 351 sieci neuronowe, 351 szeregi czasowe, 281 mierzenie informacji, 76 Skorowidz 417 MINIMUM_IMPORTANCE, 341 MINIMUM_ITEMSET_SIZE, 341 MINIMUM_PROBABILITY, 341 MINIMUM_SERIES_VALUE, 287 MINIMUM_SUPPORT, 273, 287, 304, 323, 341 MISSING_VALUE_SUBSITUTION, 287, 386 modele eksploracji danych, 182, 184, 206, 232, 235 nieprzygotowane dane Ĩródáowe, 393 nietypowe przypadki, 149 niewáaĞciwe algorytmy eksploracji danych, 394 dane Ĩródáowe, 392 niewáaĞciwie postawione zadania, 391 niezaleĪne atrybuty, 74 Noise, 51 normalizacja zakresu, 87 numerowanie stanów, 84 O obiekty, 26 ocena danych, 49, 121 modeli eksploracji danych, 3
Pobierz darmowy fragment (pdf)

Gdzie kupić całą publikację:

Microsoft SQL Server. Modelowanie i eksploracja danych
Autor:
,

Opinie na temat publikacji:


Inne popularne pozycje z tej kategorii:


Czytaj również:


Prowadzisz stronę lub blog? Wstaw link do fragmentu tej książki i współpracuj z Cyfroteką: