Cyfroteka.pl

klikaj i czytaj online

Cyfro
Czytomierz
00473 009005 7433594 na godz. na dobę w sumie
Analiza danych jakościowych i symbolicznych z wykorzystaniem programu R - ebook/pdf
Analiza danych jakościowych i symbolicznych z wykorzystaniem programu R - ebook/pdf
Autor: , Liczba stron: 310
Wydawca: C. H. Beck Język publikacji: polski
ISBN: 978-83-255-2637-5 Data wydania:
Lektor:
Kategoria: ebooki >> prawo i podatki
Porównaj ceny (książka, ebook, audiobook).

Książka jest monografią poświęcona metodom statystycznej analizy danych jakościowych, nazywanych bardziej precyzyjnie danymi niemetrycznymi, oraz danych symbolicznych o bardziej złożonej strukturze. Ma charakter teoretyczno-empiryczny – poza wyczerpującym omówieniem takich metod, jak: analiza korespondencji, modele logitowe i probitowe, analiza wariancji, modele klas ukrytych itd., zawiera przykłady ich wykorzystania do rozwiązania rzeczywistych problemów występujących w analizie danych. Rozwiązania tych problemów zostały przygotowane w postaci procedur w języku R, których działanie Czytelnik może samodzielnie zweryfikować.

Publikacja może być przydatna dla badaczy i praktyków, którzy zajmują się problematyką analizy danych niemetrycznych, nieprecyzyjnych i nieostrych. Zainteresuje więc z pewnością ekonomistów, psychologów, socjologów, biologów, botaników, archeologów, lekarzy i innych badaczy i praktyków. Polecamy ją studentom takich kierunków, jak: informatyka i ekonometria, analityka gospodarcza, informatyka, matematyka, ekonomia.

Na stronach internetowych http://keii.ue.wroc.pl znajdują się pliki zawierające wszystkie wykorzystywane dane oraz procedury realizujące zastosowania zamieszczone w książce.

Prezentowana monografia jest kolejnym zbiorem przykładów i skryptów obliczeniowych środowiska R z rozszerzonym wprowadzeniem do teoretycznych aspektów omawianych metod. (…) zawiera syntetyczne opisy podstaw teoretycznych konkretnych analiz statystycznych dla danych jakościowych i symbolicznych, ilustrowanych ciekawymi przykładami oraz podpowiada, jak przeprowadzić badanie, prezentując konkretne skrypty obliczeniowe programu R.

Prof. dr hab. Tadeusz Kufel Uniwersytet Mikołaja Kopernika w Toruniu

Znajdź podobne książki

Darmowy fragment publikacji:

Analiza Analiza danych jakoÊciowych danych jakoÊciowych i symbolicznych i symbolicznych z wykorzystaniem programu R z wykorzystaniem programu R Redakcja naukowa Eugeniusz Gatnar Marek Walesiak Analiza danych jakoÊciowych i symbolicznych z wykorzystaniem programu R Autorzy: Andrzej Bàk rozdzia∏y 5, 9 Justyna Brzeziƒska rozdzia∏ 2 Andrzej Dudek rozdzia∏y 1.2.2*, 13*, Dodatek Eugeniusz Gatnar rozdzia∏ 8 Ma∏gorzata Gliwa rozdzia∏y 1.3, 1.5* Marcin Pe∏ka rozdzia∏y 11*, 13* Dorota Rozmus rozdzia∏ 6 Joanna Trz´siok rozdzia∏ 3* Micha∏ Trz´siok rozdzia∏y 1.4, 3* Marek Walesiak rozdzia∏y 1.1, 1.2.1, 4, 7 Justyna Wilk rozdzia∏y 1.2.2*, 1.5*, 12 Ewa Witek rozdzia∏ 10 Artur Zaborski rozdzia∏ 11* * wspó∏autorstwo Analiza danych jakoÊciowych i symbolicznych z wykorzystaniem programu R Redakcja naukowa Eugeniusz Gatnar Marek Walesiak WYDAWNICTWO C.H. BECK WARSZAWA 2011 Wydawca: Dorota Ostrowska-Furmanek Redakcja merytoryczna: Anna Bogdanienko Recenzent: prof. dr hab. Tadeusz Kufel Projekt okładki i stron tytułowych: Maryna Wiśniewska Ilustracja na okładce: c(cid:13) Mark Evans/iStockphoto.com Seria: Metody ilościowe Tytuł sfinansowano ze środków na działalność statutową Katedry Ekonometrii i Informatyki Uniwersytetu Ekonomicznego we Wrocławiu oraz środków na działalność statutową Katedry Statystyki Uniwersytetu Ekonomicznego w Katowicach Złożono programem TEX c(cid:13) Wydawnictwo C.H. Beck 2011 Wydawnictwo C.H. Beck Sp. z o.o. ul. Bonifraterska 17, 00-203 Warszawa Skład i łamanie: Wydawnictwo C.H. Beck Druk i oprawa: Cyfrowe Centrum Druku i Fotografii, Bydgoszcz ISBN 978-83-255-2636-8 ebook 978-83-255-2637-5 Spis treści Rozdział 2. Analiza korespondencji Rozdział 3. Modele logarytmiczno-liniowe 9 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Rozdział 1. Wprowadzenie do analizy danych jakościowych i symbolicznych . . . . . 13 1.1. Macierz danych i tablica danych . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2. Miary odległości . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2.1. Dane porządkowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2.2. Dane symboliczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.3. Dyskretyzacja zmiennych ilościowych . . . . . . . . . . . . . . . . . . . . . . 35 1.4. Wybrane rozkłady prawdopodobieństwa zmiennych dyskretnych . . . . . . . . 39 1.5. Wizualizacja danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.2. Tablice kontyngencji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.3. Analiza zależności między zmiennymi . . . . . . . . . . . . . . . . . . . . . . 57 2.4. Analiza korespondencji dwu i wielu zmiennych . . . . . . . . . . . . . . . . . 67 2.5. Wizualizacja wyników klasycznej i wielowymiarowej analizy korespondencji . 68 2.6. Zastosowania z wykorzystaniem programu R . . . . . . . . . . . . . . . . . . . 81 . . . . . . . . . . . . . . . . . . . . . . . 81 3.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.2. Klasyczny model logarytmiczno-liniowy . . . . . . . . . . . . . . . . . . . . . 88 3.3. Hierarchiczne modele logarytmiczno-liniowe . . . . . . . . . . . . . . . . . . . 90 3.4. Miary dopasowania modeli logarytmiczno-liniowych . . . . . . . . . . . . . . . 92 3.5. Zastosowania z wykorzystaniem programu R . . . . . . . . . . . . . . . . . . . 99 Rozdział 4. Modelowanie i prognozowanie zmiennych dwumianowych . . . . . . . . 99 4.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.2. Liniowy model prawdopodobieństwa (LMP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.3. Modele logitowe i probitowe 4.4. Prognozy na podstawie modeli dwumianowych . . . . . . . . . . . . . . . . . . 103 4.5. Zastosowania z wykorzystaniem programu R . . . . . . . . . . . . . . . . . . . 104 Rozdział 5. Modelowanie zmiennych wielomianowych . . . . . . . . . . . . . . . . . 112 5.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 5.2. Wielomianowy model logitowy . . . . . . . . . . . . . . . . . . . . . . . . . . 113 5.3. Warunkowy model logitowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 5.4. Analiza historii zdarzeń . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.5. Zastosowania z wykorzystaniem programu R . . . . . . . . . . . . . . . . . . . 116 5 Spis treści Rozdział 6. Analiza wariancji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 6.1. Podstawy teoretyczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 6.1.1. Jednoczynnikowa analiza wariancji . . . . . . . . . . . . . . . . . . . . 132 6.1.2. Dwuczynnikowa analiza wariancji . . . . . . . . . . . . . . . . . . . . . 134 6.1.3. Założenia analizy wariancji . . . . . . . . . . . . . . . . . . . . . . . . 139 6.1.4. Testy post hoc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 6.2. Podstawowe schematy badań . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 6.3. Zastosowania z wykorzystaniem programu R . . . . . . . . . . . . . . . . . . . 147 Rozdział 7. Analiza skupień i porządkowanie liniowe na podstawie danych porządkowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 7.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 7.2. Analiza skupień na podstawie danych porządkowych . . . . . . . . . . . . . . . 165 7.3. Porządkowanie liniowe na podstawie danych porządkowych . . . . . . . . . . . 170 7.4. Zastosowania z wykorzystaniem programu R . . . . . . . . . . . . . . . . . . . 172 Rozdział 8. Drzewa klasyfikacyjne i regresyjne dla jakościowych zmiennych objaśniających . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 8.1. Podstawy teoretyczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 8.2. Drzewa klasyfikacyjne i regresyjne . . . . . . . . . . . . . . . . . . . . . . . . 185 8.3. Dobór jakościowych zmiennych objaśniających . . . . . . . . . . . . . . . . . . 188 8.4. Określenie optymalnej postaci modelu . . . . . . . . . . . . . . . . . . . . . . 190 8.5. Zastosowania z wykorzystaniem programu R . . . . . . . . . . . . . . . . . . . 192 Rozdział 9. Modele klas ukrytych dla danych jakościowych . . . . . . . . . . . . . . 204 9.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 9.2. Model klas ukrytych dla zmiennych binarnych i wielomianowych . . . . . . . . 204 9.3. Model regresji klas ukrytych . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 9.4. Zastosowania z wykorzystaniem programu R . . . . . . . . . . . . . . . . . . . 207 Rozdział 10. Modele mieszanek dla danych jakościowych . . . . . . . . . . . . . . . 223 10.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 10.2. Model GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 10.3. Modele mieszanek – podstawy teoretyczne . . . . . . . . . . . . . . . . . . . . 224 10.4. Modele mieszanek rozkładów dwumianowych . . . . . . . . . . . . . . . . . . 227 10.5. Modele mieszanek rozkładów Poissona . . . . . . . . . . . . . . . . . . . . . . 229 10.6. Zastosowania z wykorzystaniem programu R . . . . . . . . . . . . . . . . . . . 232 Rozdział 11. Skalowanie wielowymiarowe na podstawie danych jakościowych i symbolicznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 11.1. Procedury skalowania wielowymiarowego na podstawie danych jakościowych . 242 11.2. Analiza unfolding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 11.3. Skalowanie wielowymiarowe na podstawie danych symbolicznych . . . . . . . . 248 11.4. Zastosowania z wykorzystaniem programu R . . . . . . . . . . . . . . . . . . . 255 Rozdział 12. Analiza skupień na podstawie danych symbolicznych . . . . . . . . . . 262 12.1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 12.2. Podejścia i metody klasyfikacji danych symbolicznych . . . . . . . . . . . . . . 262 12.3. Procedura klasyfikacji danych symbolicznych . . . . . . . . . . . . . . . . . . 264 12.4. Zastosowania z wykorzystaniem programu R . . . . . . . . . . . . . . . . . . . 269 6 Spis treści Rozdział 13. Analiza dyskryminacyjna i drzewa klasyfikacyjne na podstawie danych symbolicznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 13.1. Analiza dyskryminacyjna bazująca na estymatorach intensywności . . . . . . . 280 13.2. Drzewa klasyfikacyjne bazujące na optymalnym podziale . . . . . . . . . . . . 282 13.3. Bayesowskie drzewa klasyfikacyjne . . . . . . . . . . . . . . . . . . . . . . . . 285 13.4. Zastosowania z wykorzystaniem programu R . . . . . . . . . . . . . . . . . . . 286 Dodatek A. Format danych symbolicznych . . . . . . . . . . . . . . . . . . . . . . . 292 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 Indeks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 Wstęp Niniejsza książka jest monografią poświęconą metodom statystycznej analizy danych jakościowych, nazywanych bardziej precyzyjnie danymi niemetrycznymi, oraz danych symbolicznych o bardziej złożonej strukturze. Wypełnia ona wyraźną lukę na rynku wydawniczym w Polsce, na którym nie ma prac na ten temat. Celem książki jest przedstawienie podstaw teoretycznych każdej z wybranych metod statystycznej analizy danych jakościowych i symbolicznych wraz z zastosowaniami oraz implementacją w programie R. Czytelnik, który nie ma odpowiedniego przygotowania statystycznego lub nie zna dobrze programu R, powinien zapoznać się z podręczni- kiem Statystyczna analiza danych z wykorzystaniem programu R, praca zbior. pod red. M. Walesiaka, E. Gatnara, Wydawnictwo Naukowe PWN, Warszawa 2009. Praca, którą Czytelnik ma przed sobą, składa się z trzynastu rozdziałów i każdy z nich został poświęcony odrębnej metodzie analizy danych. Struktura rozdziału obejmuje część teoretyczną oraz wybrane zastosowania z wykorzystaniem programu R. Dodatkową zaletą książki jest prezentacja oraz wykorzystanie w niej własnych pakietów działających w śro- dowisku R. Można tutaj wymienić takie pakiety, jak clusterSim oraz symbolicDA. Rozdział pierwszy stanowi wprowadzenie do analizy danych jakościowych i symbo- licznych. Omówiono tutaj zagadnienia ważne z punktu widzenia dalszych rozdziałów książki. Wyjaśniono w nim takie podstawowe pojęcia, jak macierz danych i tablica danych. Zaprezentowano miary odległości dla danych porządkowych i danych symbolicznych, zagadnienie dyskretyzacji zmiennych ilościowych, wybrane rozkłady prawdopodobień- stwa zmiennych dyskretnych oraz wizualizację danych klasycznych i symbolicznych. W rozdziale drugim zostały pokazane miary niezależności przeznaczone dla zmien- nych o charakterze jakościowym, a także opis i zastosowanie analizy korespondencji dla dwóch oraz wielu zmiennych. Jest to metoda badania współwystępowania zmiennych mierzonych na słabych skalach pomiaru (a raczej ich kategorii), która pozwala na graficz- ne przedstawienie wyników w postaci mapy percepcji w niskowymiarowej przestrzeni. W rozdziale trzecim omówiono modele logarytmiczno-liniowe, które są szczególnym przypadkiem uogólnionych modeli liniowych dla zmiennych dyskretnych o rozkładzie Poissona. W modelach logarytmiczno-liniowych obiektem podlegającym modelowaniu są liczebności z poszczególnych komórek tablicy wielodzielczej, które traktujemy jak realizacje pewnej zmiennej losowej. W rozdziale przedstawiono modele pełne (dla dwóch i trzech zmiennych) oraz hierarchiczne. Omówiono metodę wyznaczania 9 Wstęp najlepszego modelu logarytmiczno-liniowego przez budowanie wielu modeli, różniących się uwzględnioną w nich liczbą zarówno zmiennych, jak i interakcji między zmiennymi, oraz porównanie tych modeli ze sobą pod względem jakości dopasowania. Następnie zaprezentowano sposoby pozyskiwania wiedzy z modelu końcowego i interpretacji wyników. Rozdział czwarty został poświęcony modelowaniu i prognozowaniu zmiennych dwumianowych. Przedmiotem modelowania jest sztuczna zmienna jakościowa pełniąca funkcję zmiennej objaśnianej, która przyjmuje dokładnie dwie wartości: zero lub jeden. W rozdziale omówiono liniowy model prawdopodobieństwa (LMP), modele logitowy i probitowy oraz zagadnienie prognozowania na podstawie modeli dwumianowych. Rozdział piąty poświęcono prezentacji modeli zmiennych wielomianowych o kate- goriach nieuporządkowanych. Modele takie znajdują zastosowania w ekonomii, m.in. w badaniach preferencji konsumentów dokonujących wyborów rynkowych. Przedsta- wiono wielomianowy model logitowy i warunkowy model logitowy oraz możliwości ich estymacji za pomocą funkcji dostępnych aktualnie w programie R. Rozdział szósty został poświęcony analizie wariancji. Metoda ta pozwala ocenić wpływ niezależnego czynnika klasyfikującego xj (j = 1, . . . , m) o charakterze jako- ściowym na wartości zmiennej zależnej y o charakterze metrycznym. W rozdziale tym przedstawiono zagadnienia związanie z jedno- i dwuczynnikową analizą wariancji, a tak- że dwuczynnikową analizą wariancji przy uwzględnieniu występowania interakcji rzędu pierwszego. Omówiono tam także problematykę tzw. testów post hoc służących spraw- dzeniu istotności różnic poszczególnych par średnich na różnych poziomach czynnika klasyfikującego oraz podstawowe schematy badań wykorzystujące technikę analizy wa- riancji. W rozdziale siódmym przedstawiono rozwiązania metodyczne pozwalające na przeprowadzanie analizy skupień i porządkowania liniowego dla danych porządkowych. Podstawą do ich zastosowania jest odległość GDM2. W analizie skupień wyróżniono dwie procedury postępowania: klasyczną analizę skupień i klasyfikację spektralną. W procedurze porządkowania liniowego zastosowano nową metodę zamiany nominant na stymulanty właściwą dla danych porządkowych (przy konstrukcji dolnego bieguna rozwoju zachodzi konieczność zamiany nominant na stymulanty). Rozdział ósmy w całości został poświęcony omówieniu metody budowy modeli dyskryminacyjnych i regresyjnych, która umożliwia wykorzystanie zmiennych objaśnia- jących o charakterze jakościowym. Metoda ta opiera się na rekurencyjnym podziale przestrzeni zmiennych i nosi nazwę odnoszącą się do graficznej postaci tego procesu: drzewa klasyfikacyjne i regresyjne. W rozdziale tym pokazano sposoby doboru zmien- nych charakterystyczne dla tego rodzaju modeli, oparte m.in. na statystyce χ2, oraz wyboru modelu w optymalnej postaci. W rozdziale dziewiątym zaprezentowano modele klas ukrytych, które są przykładem tzw. podejścia modelowego w analizie skupień. W modelach klas ukrytych zmienne obserwowane mają charakter jakościowy. Przedstawiono modele zmiennych binarnych i wielomianowych z uwzględnieniem problemu wyboru modelu i liczby klas. Omówiono 10 Wstęp także modele regresji klas ukrytych, w których uwzględnia się dodatkowo zmienne towarzyszące wpływające na przynależność obserwacji do klas. W rozdziale dziesiątym przedstawiono zastosowanie modeli mieszanek w analizie regresji. Modele mieszanek rozkładów stosowane są wówczas, gdy zbiór obserwacji jest zbiorem niejednorodnym. Celowość podziału badanej zbiorowości na grupy jednorodne, ze względu na przyjęty zestaw cech diagnostycznych, uzasadniona jest istotnymi różni- cami relacji pomiędzy zmiennymi (np. wydatkami ogółem względem wybranych cech społeczno-ekonomicznych). W rozdziale omówiono zagadnienie estymacji parametrów oraz wyboru modelu mieszanek o najlepszej jakości dopasowania. Charakterystyce poddano w szczególności modele najczęściej wykorzystywane w analizie danych jakościowych, tj. modele miesza- nek rozkładów dwumianowych oraz rozkładów Poissona. Rozdział jedenasty poświęcono prezentacji teoretycznych i aplikacyjnych podstaw skalowania wielowymiarowego dla danych niemetrycznych i symbolicznych. Zaprezento- wano dwa podejścia optymalizacji funkcji dopasowania, tj. metodę gradientową i metodę majoryzacji. Scharakteryzowano analizę unfolding, w której w przeciwieństwie do innych metod skalowania wielowymiarowego danymi wejściowymi nie jest macierz odległości, lecz prostokątna macierz preferencji. W części poświęconej skalowaniu wielowymiaro- wemu danych symbolicznych przedstawiono modele Interscal, SymScal i I-Scal. W rozdziale dwunastym przedstawiono rozwiązania metodyczne pozwalające na klasyfikację danych symbolicznych z wykorzystaniem analizy skupień. Spośród metod analizy skupień wyróżniono dwie grupy: metody taksonomii numerycznej i metody taksonomii symbolicznej. Omówiono dwa podejścia w klasyfikacji danych symbolicz- nych: podejście bazujące na macierzy odległości i podejście bazujące na tablicy danych symbolicznych. Wskazano metody, jakie mają zastosowanie w poszczególnych etapach procedury klasyfikacyjnej w zależności od przyjętego podejścia. W rozdziale trzynastym przedstawiono podstawy analizy dyskryminacyjnej dla danych symbolicznych. Do metod analizy dyskryminacyjnej, które mogą znaleźć zasto- sowanie w przypadku danych symbolicznych, zaliczają się przede wszystkim: drzewa klasyfikacyjne, jądrowa analiza dyskryminacyjna oraz metoda K-najbliższych sąsiadów (używana w formie „klasycznej” z wykorzystaniem macierzy odległości obliczonych na podstawie miar symbolicznych). W rozdziale zaprezentowano jądrową analizę dyskry- minacyjną opartą na estymatorach intensywności, która jest adaptacją nieparametrycznej analizy dyskryminacyjnej wykorzystującej jądrowe estymatory gęstości, oraz teore- tyczne postawy konstrukcji drzew klasyfikacyjnych, które są adaptacją rekurencyjnych drzew klasyfikacyjnych dla danych klasycznych, a także algorytm bayesowskich drzew klasyfikacyjnych, które są rozwiązaniem dostępnym jedynie dla danych symbolicznych. Ponadto na końcu książki znajduje się dodatek, w którym pokazano sposób przygo- towania danych symbolicznych w postaci gotowej do wykorzystania przez procedury i funkcje ujęte w książce dla danych symbolicznych. Autorzy mają nadzieję, że niniejsza książka okaże się przydatna dla badaczy i prakty- ków, którzy zajmują się problematyką analizy danych niemetrycznych, nieprecyzyjnych 11 Wstęp i nieostrych. Zainteresuje więc z pewnością ekonomistów, psychologów, socjologów, biologów, botaników, archeologów, lekarzy i innych. Wersję instalacyjną programu R oraz dodatkowe pakiety można pobrać ze strony: http://www.r-project.org/. Wszystkie skrypty zawarte w książce przetestowano używając wersji 2.13.0 programu R. Na stronie internetowej http://keii.ue.wroc.pl znajdują się pliki zawierające wszystkie wykorzystywane dane oraz procedury realizujące zastosowania zamieszczone w książce. Rozdział 1. Wprowadzenie do analizy danych jakościowych i symbolicznych 1.1. Macierz danych i tablica danych Do podstawowych pojęć statystycznej analizy wielowymiarowej zalicza się pojęcie obiektu i zmiennej. Obiekty są rozumiane w sensie zarówno dosłownym, jak i przenośnym. Obiektem jest więc w badaniach określona rzecz, osoba, kategoria abstrakcyjna lub zdarzenie. Konkretnymi przykładami obiektów są: konsument X, produkt Y , marka samochodu S, pacjent P , gmina G, przedsiębiorstwo F , rzeka R, rynek testowy T , hipermarket H, rynek zbytu Z, gospodarstwo domowe D, idea filozoficzna I, uniwersytet U. Zbiór obiektów będzie oznaczany przez A = {Ai}n Zmienna w statystycznej analizie wielowymiarowej jest charakterystyką opisującą 1 = {A1, · · · , An} . zbiorowość obiektów. W ujęciu formalnym zmienna Mj to odwzorowanie: Mj: A → Qj (j = 1, . . . , m), (1.1) gdzie: Q – zbiór obrazów (liczb rzeczywistych, kategorii) zmiennej Mj; j = 1, . . . , m – numer zmiennej. Spośród zmiennych opisujących obiekty wyróżnia się zmienne metryczne (ilorazowe i przedziałowe) oraz zmienne niemetryczne (porządkowe i nominalne). Skale pomiaru są uporządkowane od najsłabszej do najmocniejszej: nominalna, porządkowa, przedziałowa, ilorazowa. Tabela 1.1 prezentuje podstawowe własności niemetrycznych skal pomiaru. Zmienne niemetryczne stanowiące przedmiot badania w monografii będziemy także nazywać zmiennymi jakościowymi. Metody statystycznej analizy wielowymiarowej (SAW) zwykle wymagają, aby realizacje zmiennych były liczbami rzeczywistymi – zachodzi więc potrzeba kodowania zmiennych wyrażonych w formie kategorii. Jeśli w odwzorowaniu (1.1) zbiór obrazów jest zbiorem kategorii, należy go przekodować na zbiór liczb rzeczywistych. Można wykorzystać następujące sposoby kodowania zmiennych: a) Jeśli dana zmienna ma tylko dwie kategorie, można ją zamienić na tzw. zmienną sztuczną (np. zero-jedynkową). Jednemu wariantowi nadaje się wartość „1”, a drugiemu wartość „0” lub „−1”. Na przykład dla zmiennej „płeć” kodowanie będzie następujące: kobieta „1”, mężczyzna „0” lub „−1”. b) Jeśli zmienna ma więcej niż dwie kategorie, zamiana polega na zastosowaniu zespołu zmiennych sztucznych (np. zero-jedynkowych). 13 Rozdział 1. Wprowadzenie do analizy danych jakościowych i symbolicznych Tabela 1.1. Podstawowe własności niemetrycznych skal pomiaru Typ skali Dozwolone przekształcenia matematyczne Dopuszczalne relacje Nominalna z = f (x), f (x) – dowolne przekształcenie wzajemnie jednoznaczne równości (xA = xB), różności (xA 6= xB) Porządkowa z = f (x), f (x) – dowolna ściśle monotonicznie rosnąca funkcja powyższe oraz większości (xA xB) i mniejszości (xA xB) Dopuszczalne operacje arytmetyczne zliczanie zdarzeń (liczba relacji równości, różności) zliczanie zdarzeń (liczba relacji równości, różności, większości, mniejszości) Źródło: opracowanie własne na podstawie prac: [Stevens, 1959, s. 25 i 27; Adams, Fagot, Robinson, 1965; Walesiak, 1995, s. 189–191]. W modelu z wyrazem wolnym obowiązuje zasada, według której liczba wprowadzonych zmiennych sztucznych musi być mniejsza o jeden od liczby poziomów (kategorii) danej zmiennej. Załóżmy, że dla zmiennej „wykształcenie” występują trzy warianty (kategorie): podstawowe, zasadnicze zawodowe, średnie. Należy w tym przypadku wprowadzić dwie zmienne sztuczne, np. zdefiniowane następująco: Wykształcenie Mj Mj+1 podstawowe zasadnicze zawodowe średnie 0 0 1 0 1 0 lub Mj Mj+1 −1 −1 1 0 1 0 W modelu bez wyrazu wolnego wprowadza się tyle zmiennych sztucznych, ile jest po- ziomów (kategorii) danej zmiennej. Na przykład dla danych kwartalnych wprowadzamy 4 zmienne zero-jedynkowe o następującym kodowaniu: Kwartał M1 M2 M3 M4 0 0 0 1 I II III IV 0 0 1 0 1 0 0 0 0 1 0 0 Kodowanie zero-jedynkowe zmiennych umożliwia funkcja fact2dummy pakietu StatMatch. Skrypt 1.1 przedstawia kodowanie dla zmiennej x (wykształcenie). Skrypt 1.1 library(StatMatch) d -read.csv2( dane_1_1.csv ,header=TRUE,row.names=1) attach(d) options(OutDec= , ) print( Liczba zmiennych 0-1 równa liczbie kategorii ,quote=FALSE) d1 -fact2dummy(d,all=TRUE) print(d1) print( Liczba zmiennych 0-1 mniejsza o 1 od liczby kategorii ,quote=FALSE) 14 1.1. Macierz danych i tablica danych d2 -fact2dummy(d,all=FALSE) print(d2) detach(d) W wyniku zastosowania procedury ze skryptu 1.1 otrzymuje się następujące wyniki kodowania zero-jedynkowego dla zmiennej x (wykształcenie): [1] Liczba zmiennych 0-1 równa liczbie kategorii xpodstawowe xśrednie xzasadnicze zawodowe 0 0 0 1 1 0 0 0 1 1 1 2 3 4 5 6 7 8 9 10 [1] Liczba zmiennych 0-1 mniejsza o 1 od liczby kategorii 1 0 0 0 0 1 1 0 0 0 0 1 1 0 0 0 0 1 0 0 xpodstawowe xśrednie 1 0 0 0 0 1 1 0 0 0 0 1 1 0 0 0 0 1 0 0 1 2 3 4 5 6 7 8 9 10 c) Poszczególnym kategoriom można przypisać kolejne liczby naturalne. Nie ma tutaj znaczenia, czy kategorie można uporządkować według stopnia intensywności oddziaływania (zmienna porządkowa), czy też nie można uporządkować (zmienna nominalna). Na przykład dla zmiennej porządkowej organizacja pracy obejmującej kategorie bardzo dobra, dobra, słaba, zła można zastosować kodowanie: zła słaba dobra bardzo dobra 1 2 3 4 Znajomość w analizie danych zbioru obiektów i zbioru zmiennych pozwala zapisać macierz danych: X = [xij] = x11 x12 · · · x1m x21 x22 · · · x2m · · · · · · · · · · · · xn1 xn2 · · · xnm   ,   (1.2) 15 Rozdział 1. Wprowadzenie do analizy danych jakościowych i symbolicznych gdzie: xij – obserwacja j-ej zmiennej w i-tym obiekcie; i = 1, . . . , n – numer obiektu; j = 1, . . . , m – numer zmiennej. Zbiór obiektów symbolicznych można oznaczyć podobnie jak w ujęciu klasycznym: 1 = {A1, · · · , An}. Podstawowa klasyfikacja obiektów symbolicznych A = {Ai}n obejmuje obiekty pierwszego rzędu, drugiego rzędu i syntetyczne. Obiekty symboliczne pierwszego rzędu (first-order objects, elementary objects) są obiektami w rozumieniu klasycznym (np. konsumenci, przedsiębiorstwa, województwa). Są to obiekty symboliczne ze względu na to, że w tablicy danych, obok zmiennych w rozumieniu klasycznym, występują zmienne symboliczne. Obiekty symboliczne drugiego rzędu (second-order object, aggregated objects) powstają przez grupowanie (agregowanie) minimum dwóch obiektów pierwszego rzędu w zespoły (klasy). Obiekty syntetyczne (synthetic objects) powstają z połączenia w jeden obiekt minimum dwóch obiektów symbolicznych zagregowanych. Najczęściej są one wykorzy- stywane do wyznaczania profili klas. Formalnie zmienna symboliczna Vj jest odwzorowaniem: Vj : A → Oj, (1.3) gdzie: Oj – zbiór realizacji zmiennej symbolicznej Vj(Vj ⊂ Oj); j = 1, . . . , m – numer zmiennej symbolicznej. O ile w przypadku zmiennej klasycznej jej realizacją dla zmiennych niemetrycznych jest tylko jedna kategoria, o tyle w przypadku zmiennej symbolicznej może to być np. kilka kategorii, przedział liczbowy. Podstawowymi typami zmiennych w analizie danych symbolicznych są: 1) Zmienne symboliczne: – o realizacjach w postaci przedziałów liczbowych rozłącznych i nierozłącznych, – o realizacjach w postaci list kategorii, – o realizacjach w postaci list kategorii z wagami (prawdopodobieństwami), – strukturalne (taksonomiczne, hierarchiczne, logiczne). 2) Zmienne klasyczne: metryczne (ilorazowe, przedziałowe), niemetryczne (porząd- kowe, nominalne). Znajomość w analizie danych zbioru obiektów symbolicznych i zbioru zmiennych symbolicznych pozwala zapisać tablicę danych: v11 v12 · · · v1m v21 v22 · · · v2m · · · · · · · · · · · · vn1 vn2 · · · vnm   ,   [vij] = (1.4) gdzie: vij – realizacja j-ej zmiennej symbolicznej w i-tym obiekcie symbolicznym; i = 1, . . . , n – numer obiektu; j = 1, . . . , m – numer zmiennej. Tabela 1.2 prezentuje fragment tablicy danych opisujących potencjalnych nabywców samochodów. 16 1.2. Miary odległości Tabela 1.2. Fragment tablicy danych opisujących potencjalnych nabywców samochodów Potencjalny nabywca vi1 vi2 vi3 1 2 3 · · · 100 [20; 35) [28; 42] [24; 32) · · · {szary, czarny} {niebieski, czerwony} {żółty, niebieski, czerwony} {Toyota (30 ), Audi (70 )} {Fiat (40 ), Renault (60 )} {Honda (75 ), Fiat (25 )} · · · · · · [38; 56] {zielony, biały, czerwony} {Opel (50 ), Audi (50 )} vi1 – akceptowalna cena samochodu w tys. zł (zmienna symboliczna o realizacjach w postaci przedziałów liczbowych nierozłącznych); vi2 – preferowane kolory samochodu (zmienna symboliczna o realizacjach w postaci list kategorii); vi3 – preferowane marki (zmienna symboliczna o realizacjach w postaci list kategorii z wagami). Źródło: opracowanie własne. 1.2. Miary odległości Funkcja d : A × A → R (A – zbiór obiektów badania, R – zbiór liczb rzeczywistych) jest miarą odległości wtedy i tylko wtedy, gdy spełnione są warunki nieujemności, zwrotności i symetryczności. 1.2.1. Dane porządkowe Z typem skali wiąże się grupa przekształceń, ze względu na które skala zachowuje swe własności. Na skali porządkowej dozwolonym przekształceniem matematycznym dla obserwacji jest dowolna ściśle monotonicznie rosnąca funkcja, która nie zmienia dopuszczalnych relacji, tj. równości, różności, większości i mniejszości. Zasób informacji skali porządkowej jest nieporównanie mniejszy niż skal metrycz- nych. Jedyną dopuszczalną operacją empiryczną na skali porządkowej jest zliczanie zdarzeń (tzn. wyznaczanie liczby relacji większości, mniejszości i równości). Szczegó- łową charakterystykę skal pomiaru zawierają m.in. prace: [Walesiak, 1993, s. 31–35; 1996, s. 19–24; 2006, s. 12–15]. Miara odległości dla obiektów opisanych zmiennymi porządkowymi może wykorzy- stywać w swojej konstrukcji tylko ww. relacje. To ograniczenie powoduje, że musi być ona miarą kontekstową, która wykorzystuje informacje o relacjach, w jakich pozostają porównywane obiekty w stosunku do pozostałych obiektów z badanego zbioru obiek- tów. Taką miarą odległości dla danych porządkowych jest miara GDM2 zaproponowana przez Walesiaka [1993], s. 44–45: dik = 1 2 − m Pj=1 2 m Pj=1 aikjbkij + a2 ilj · n Pl=1 l6=i,k m Pj=1 Pj=1 m n Pl=1 Pl=1 n ailjbklj klj#1/2 , dik ∈ [0; 1], b2 (1.5) 17 Rozdział 1. Wprowadzenie do analizy danych jakościowych i symbolicznych gdzie: aipj (bkrj) =   jeżeli xij xpj (xkj xrj) , 1, 0, jeżeli xij = xpj (xkj = xrj) , −1, jeżeli xij xpj (xkj xrj) , dla p = k, l; r = i, l; xij(xkj, xlj) – i-ta (k-ta, l-ta) obserwacja na j-ej zmiennej; i, k, l = 1, . . . , n – numery obiektów; j = 1, . . . , m – numer zmiennej. Miarę odległości GDM2 można stosować, gdy zmienne są mierzone jednocześnie na różnych skalach. Dla grupy zmiennych mierzonych na skali przedziałowej lub ilorazowej zostaje osłabiona skala pomiaru (zostają one przekształcone w zmienne porządkowe, po- nieważ w obliczeniach uwzględniane są tylko relacje większości, mniejszości i równości). W literaturze z zakresu statystycznej analizy wielowymiarowej nie zaproponowano dotychczas innych miar odległości dla zmiennych porządkowych. Miara odległości Ken- dalla [1966], s. 181, odległości Gordona [1999], s. 19 czy odległości Podaniego [1999] nie są typowymi miarami dla zmiennych porządkowych, ponieważ przy ich stosowaniu zakłada się, że odległości między sąsiednimi obserwacjami na skali porządkowej są sobie równe (na skali porządkowej odległości między dowolnymi dwiema obserwacjami nie są znane). Zastosowanie tych miar odległości wymaga uprzedniego uporządkowania obser- wacji. Przyjmuje się wtedy upraszczające założenie, że rangi są mierzone co najmniej na skali przedziałowej (wtedy dopuszcza się wyznaczanie różnic między wartościami skali). 1.2.2. Dane symboliczne Konstrukcja miar odległości dla danych symbolicznych wymaga uwzględnienia dwóch istotnych trudności niewystępujących lub występujących w znacznie mniejszym stopniu w przypadku tradycyjnej macierzy danych, tj. braku zdefiniowania dla danych symbolicz- nych podstawowych operatorów matematycznych (dodawania, odejmowania, mnożenia i dzielenia) oraz faktu, że obiekty symboliczne są zazwyczaj charakteryzowane przez zmienne symboliczne różnych typów, z różnymi realizacjami, połączonymi zależnościa- mi różnych typów. Pierwsza trudność rozwiązywana jest najczęściej przez definiowanie operatorów funkcjonujących dla wszystkich lub prawie wszystkich typów zmiennych symbolicznych. Najważniejszymi konstrukcjami tego typu są: – operator połączenia kartezjańskiego (Cartesian join) zdefiniowany dla wszystkich ty- pów zmiennych symbolicznych (oprócz zmiennych w postaci list kategorii z wagami), będący uogólnieniem kartezjańskiej sumy zbiorów ∪, oznaczany zazwyczaj jako ⊕, – operator przekroju kartezjańskiego (Cartesian meet) zdefiniowany dla wszystkich typów zmiennych symbolicznych (oprócz zmiennych wielokategorialnych z wagami), będący uogólnieniem kartezjańskiego iloczynu zbiorów ∩, oznaczany zazwyczaj jako ⊗, – operator µ definiowany, w zależności od typu zmiennej symbolicznej jako liczba elementów w zbiorze lub długość przedziału liczbowego, 18 1.2. Miary odległości – potencjał opisowy obiektu symbolicznego π(Ai) = Qm j=1 µ(vij) (gdzie: Ai – i-ty obiekt symboliczny, j – numer zmiennej symbolicznej (j = 1, . . . , m), vij – realizacja j-ej zmiennej symbolicznej w i-tym obiekcie). Operatory połączenia kartezjańskiego i przekroju kartezjańskiego zostały zapro- ponowane przez Ichino i Yaguchiego [1994], pojęcie potencjału opisowego obiektu symbolicznego zaś zostało wprowadzone przez de Carvalho i Souzę [1998]. Szczegó- łowe definicje tych operatorów dla zmiennych symbolicznych różnych typów można znaleźć w pracach: [Bock, Diday i in., 2000; Diday, Noirhomme-Fraiture i in., 2004]. Rozwiązaniem problemu niehomogeniczności typów zmiennych symbolicznych w ramach jednego obiektu symbolicznego jest definiowanie miar odległości dla tego typu danych dwuetapowo. Najpierw definiuje się odległości obiektów względem każ- dej zmiennej (odległości składowe – componentwise distances), a następnie agreguje otrzymane wartości (odległości zagregowane – aggregated distances). Agregacja doty- czy zazwyczaj miar odległości takiego samego typu. Możliwe jest również agregowanie odległości różnych typów (np. miary Ichino–Yaguchiego dla zmiennych o realizacjach w postaci przedziałów liczbowych i listy kategorii oraz statystyki chi-kwadrat dla zmien- nych z realizacjami w postaci listy kategorii z wagami). Można wyróżnić cztery grupy miar odległości obiektów symbolicznych: – odległości określone dla zmiennych symbolicznych o realizacjach w postaci prze- działów liczbowych, – odległości określone dla zmiennych symbolicznych o realizacjach w postaci prze- działów liczbowych lub list kategorii, – odległości określone dla zmiennych symbolicznych o realizacjach w postaci list kategorii z wagami, – odległości określone dla obiektów symbolicznych opisanych zmiennymi symbolicz- nymi dowolnego typu. Konstrukcja większości z tych miar zakłada, że jeśli dane zawierają klasyczne zmienne metryczne, to są one traktowane jako przedziały liczbowe zamknięte o początku i końcu w tym samym punkcie, natomiast jeżeli zawierają klasyczne zmienne porządkowe lub nominalne, to są one traktowane jako jednoelementowe listy kategorii. Przy prezentacji miar odległości będą podawane obok pełnej nazwy miary odległości również nazwy skrócone ujęte w funkcjach pakietu symbolicDA programu R. Jeżeli obiekt symboliczny jest opisany tylko przez zmienne symboliczne, których re- alizacjami są przedziały liczbowe, to może być on traktowany jako hiperprostopadłościan w m-wymiarowej przestrzeni (m – liczba zmiennych symbolicznych). Najważniejszymi miarami odległości dla obiektów tego typu [Bock 2008, s. 211] są: 1) Odległość średnia (M) – obliczana jako odległość euklidesowa między środkami hiper-prostopadłościanów. 2) Odległość typu vertex (S) – obliczana jako suma kwadratów wszystkich odległości pomiędzy odpowiednimi wierzchołkami hiperprostopadłościanów. 3) Odległość Hausdorffa (H) zdefiniowana jako: 19
Pobierz darmowy fragment (pdf)

Gdzie kupić całą publikację:

Analiza danych jakościowych i symbolicznych z wykorzystaniem programu R
Autor:
,

Opinie na temat publikacji:


Inne popularne pozycje z tej kategorii:


Czytaj również:


Prowadzisz stronę lub blog? Wstaw link do fragmentu tej książki i współpracuj z Cyfroteką: