Cyfroteka.pl

klikaj i czytaj online

Cyfro
Czytomierz
00064 005889 13604235 na godz. na dobę w sumie
Parametr wygładzania w estymacji jądrowej funkcji gęstości dla zmiennych losowych w badaniach ekonomicznych - ebook/pdf
Parametr wygładzania w estymacji jądrowej funkcji gęstości dla zmiennych losowych w badaniach ekonomicznych - ebook/pdf
Autor: Liczba stron:
Wydawca: Wydawnictwo Uniwersytetu Łódzkiego Język publikacji: polski
ISBN: 978-83-8088-280-5 Data wydania:
Lektor:
Kategoria: ebooki >> biznes >> ekonomia
Porównaj ceny (książka, ebook, audiobook).

 

Estymacja jądrowa funkcji gęstości jest jedną z podstawowych procedur stosowanych w analizach ekonomicznych, gdyż w sposób jednoznaczny określa zmienną losową utożsamianą w badaniach z cechą statystyczną. W pracy przedstawiono metodę estymacji jądrowej funkcji gęstości, ze szczególnym uwzględnieniem procedur wyboru parametru wygładzania. Za pomocą metod symulacyjnych analizie poddano własności parametrów wygładzania, wyznaczonych omawianymi metodami, uwzględniając zarówno liczebność próby, jak i postać funkcji jądra wykorzystywanej w estymatorze jądrowym funkcji gęstości. Zaproponowano również nową metodę wyboru parametru wygładzania, opartą na średniej harmonicznej, która ze względu na uogólnioną postać średniej charakteryzuje się uniwersalnością w zakresie stosowania tej metody. Uwzględniono przykłady zastosowania w badaniach ekonomicznych prezentowanych metod wyboru parametru wygładzania w procesie estymacji jądrowej funkcji gęstości dla zmiennych losowych.

Znajdź podobne książki Ostatnio czytane w tej kategorii

Darmowy fragment publikacji:

Aleksandra Baszczyńska – Uniwersytet Łódzki, Wydział Ekonomiczno-Socjologiczny Katedra Metod Statystycznych, 90-255 Łódź, ul. POW 3/5 RECENZENT Grzegorz Kończak REDAKTOR INICJUJĄCY Monika Borowczyk OPRACOWANIE REDAKCYJNE Małgorzata Szymańska SKŁAD I ŁAMANIE Munda – Maciej Torz PROJEKT OKŁADKI Stämpfli Polska Sp. z o.o. Zdjęcie wykorzystane na okładce: © Shutterstock.com © Copyright by Aleksandra Baszczyńska, Łódź 2016 © Copyright for this edition by Uniwersytet Łódzki, Łódź 2016 Wydane przez Wydawnictwo Uniwersytetu Łódzkiego Wydanie I. W.07511.16.0.M Ark. 7,2; ark. druk. 12,5 ISBN 978-83-8088-279-9 e-ISBN 978-83-8088-280-5 Wydawnictwo Uniwersytetu Łódzkiego 90-131 Łódź, ul. Lindleya 8 www.wydawnictwo.uni.lodz.pl e-mail: ksiegarnia@uni.lodz.pl tel. (42) 665 58 63 Spis treści Indeks oznaczeń i symboli Wprowadzenie Rozdział 1 Estymacja nieparametryczna funkcji gęstości 1.1. Uwagi wstępne 1.2. Estymacja jądrowa funkcji gęstości 1.3. Miary precyzji estymacji jądrowej funkcji gęstości 1.4. Estymacja jądrowa pochodnych funkcji gęstości Rozdział 2 Rodzaje funkcji jądra 2.1. Uwagi wstępne 2.2. Klasyczne funkcje jądra 2.3. Funkcje jądra wyższych rzędów 2.4. Gładkie wielomianowe funkcje jądra 2.5. Funkcje jądra o najmniejszej wariancji 2.6. Funkcje jądra optymalne 2.7. Kanoniczne funkcje jądra 2.8. Asymetryczne sześcienne funkcje jądra 2.9. Funkcje jądra stosowane w estymacji funkcji gęstości z ograniczonym nośnikiem Rozdział 3. Metody wyboru parametru wygładzania 3.1. Uwagi wstępne 3.2. Metody odwołania do rozkładu 3.3. Metody kroswalidacyjne 3.4. Metody podstawiania 3.5. Inne metody wyboru parametru wygładzania 3.6. Badanie własności wybranych metod wyboru parametru wygładzania 3.7. Zastosowanie metody wyboru parametru wygładzania opartej na uogólnionej średniej harmonicznej w estymacji jądrowej funkcji gęstości 7 11 15 15 26 38 42 47 47 49 55 57 59 61 66 70 71 93 93 100 103 111 113 114 149 6 Rozdział 4. Parametr wygładzania w estymacji jądrowej wielowymiarowej funkcji gęstości 4.1. Uwagi wstępne 4.2. Produktowa i radialna funkcja jądra 4.3. Wybór macierzy parametrów wygładzania Rozdział 5. Parametr wygładzania w zastosowaniach ekonomicznych estymacji jądrowej funkcji gęstości 5.1. Uwagi wstępne 5.2. Analiza kondycji przedsiębiorstw 5.3. Analiza wskaźników cen towarów i usług konsumpcyjnych Zakończenie Literatura Smoothing Parametr in Kernel Density Estimation for Random Variables in Economic Researches. Summary Spis rysunków Spis tablic Od Redakcji 157 157 157 164 167 167 168 172 179 183 191 195 197 199 Parametr wygładzania w estymacji jądrowej... Indeks oznaczeń i symboli X1, X2, …, Xn próba losowa x1, x2, …, xn f = f(x) F(x) Fˆ(x) realizacja próby losowej funkcja gęstości dystrybuanta dystrybuanta empiryczna IA(x) fˆ(x) fˆ H(x) hH fˆ n(x) = fˆ(x) fˆ (v) n (x) K = K(u) h = h(n) Sμ v, k E[fˆ(x)] B[fˆ(x)] D2[fˆ(x)] ||x||p fˆ Ri(x) funkcja charakterystyczna zbioru A: A x I 1 gdy ­ ° ® 0 gdy ¯°  x A  x A estymator funkcji gęstości histogram szerokość klasy w histogramie estymator jądrowy funkcji gęstości estymator jądrowy ν-tej pochodnej funkcji gęstości funkcja jądra parametr wygładzania klasa funkcji jądra o rzędzie k i gładkości μ wartość oczekiwana estymatora funkcji gęstości obciążenie estymatora funkcji gęstości wariancja estymatora funkcji gęstości p-ta norma wektora x: x p estymator jądrowy funkcji gęstości z odbiciem, i = L, P   ... x 1 x 2 x n p  p 1 p p 8 fˆ B(x) AE[ fˆ(x)] MAE[fˆ(x)] IAE[fˆ(x)] MIAE[fˆ(x)] SE[fˆ(x)] MSE[fˆ(x)] ISE[fˆ(x)] MISE[fˆ(x)] estymator jądrowy funkcji gęstości z brzegową funkcją jądra błąd bezwzględny estymatora funkcji gęstości średni błąd bezwzględny estymatora funkcji gęstości scałkowany błąd bezwzględny estymatora funkcji gęstości scałkowany średni błąd bezwzględny estymatora funkcji gęstości błąd kwadratowy estymatora funkcji gęstości błąd średniokwadratowy estymatora funkcji gęstości scałkowany błąd kwadratowy estymatora funkcji gęstości scałkowany błąd średniokwadratowy estymatora funkcji gęstości κ = R(K) scałkowany kwadrat funkcji jądra: +∞ κ = ∫ −∞ 2K u du ) ( κk k-ty moment zwykły funkcji jądra: +∞ κ = ∫ k −∞ k u K u du ( ) R(f (k)) scałkowany kwadrat k-tej pochodnej funkcji gęstości: R f ( k ( ) ) = +∞ ∫ −∞   f k ( ) x ( ) 2   dx jednostajna funkcja jądra trójkątna funkcja jądra funkcja jądra Epanecznikowa dwuwagowa funkcja jądra trójwagowa funkcja jądra gaussowska funkcja jądra kosinusowa funkcja jądra funkcja jądra stopnia trzeciego KJ(u) KT(u) KE(u) KDW(u) KTW(u) KG(u) KC(u) KST(u) K * K(u) splot funkcji jądra: K K u ( ) ∗ = K (2) u ( ) = +∞ ∫ −∞ K u v K v dv − ( ) ) ( n!! silnia podwójna: n !!  1 dla =   n n ( − n = 0 lub n = 1 2)!! dla n ≥ 2 Parametr wygładzania w estymacji jądrowej... symbol Pochhammera: ( ) a n = Indeks oznaczeń i symboli 9 n 1 − ( a +∏ j = 0 j ) funkcja gamma Eulera funkcja beta Eulera wielomian Gegenbauera: l C u ( ) m 1 = Γ l ( ) i ( 1) − Γ + l m i ( − m i 2 − u )(2 ) i m i !( 2 )! − m       2 ∑ i = 0 wielomian Legendre’a stopnia k : P x ( ) k k = ∑ r = 0 r p u k r funkcja gęstości rozkładu normalnego standaryzowanego parametr wygładzania minimalizujący ISE parametr wygładzania minimalizujący MISE parametr wygładzania minimalizujący AMISE parametr wygładzania wyznaczony metodą odwołania do standardowego rozkładu parametr wygładzania wyznaczony za pomocą zasady maksymalnego wygładzania parametr wygładzania wyznaczony metodą kroswalidacyjną najmniejszych kwadratów parametr wygładzania wyznaczony metodą kroswalidacyjną pseudowiarygodności parametr wygładzania wyznaczony metodą obciążoną kroswalidacyjną parametr wygładzania wyznaczony metodą wygładzoną kroswalidacyjną parametr wygładzania wyznaczony metodą podstawiania parametr wygładzania wyznaczony metodą uogólnionej średniej harmonicznej estymator jądrowy wielowymiarowej funkcji gęstości produktowa funkcja jądra radialna funkcja jądra macierz parametrów wygładzania wyznacznik macierzy parametrów wygładzania (a)n Γ(z) B(x, y) C l m(u) Pk(x) ϕ(u) hISE hMISE hAMISE hRR,. hMS,. hLSCV hPLCV hBVC hSCV hPM hUH fˆ(x, H) KP(x) KR(x) H |H| Wprowadzenie Uniwersalne a  jednocześnie skuteczne procedury statystyczne stanowią jedno z podstawowych narzędzi w szeroko pojętych badaniach ekonomiczno-społecz- nych. Potrzeba stosowania takich procedur jest ściśle związana z charakterem zja- wisk dotyczących wysoko rozwiniętego społeczeństwa, gdzie stopień różnorod- ności wszelkich aspektów jego funkcjonowania jest wysoki. W analizach statystycznych związanych ze zjawiskami ekonomicznymi szcze- gólną rolę odgrywają metody nieparametryczne. Zapewniają uniwersalność ze względu na brak konieczności przyjmowania dodatkowych założeń dotyczących rozkładów zmiennych losowych. Założenia takie nie zawsze bowiem są spełnione, co w wielu przypadkach jest wyrazem szczególnego charakteru analizowanych zmiennych ekonomicznych – ich wyjątkowości i niepowtarzalności. Zatem, nie- powszedniość i  incydentalność zmiennych ekonomicznych wymusza aplikację takich metod, dla których obserwowany jest szeroki zakres stosowalności, przy jednoczesnym braku konieczności przyjmowania, być może, wątpliwych założeń. Z drugiej strony dobre własności procedur nieparametrycznych stanowią gwa- rancję skuteczności metod nieparametrycznych. Funkcja gęstości jest jedną z podstawowych charakterystyk zmiennej losowej, stąd nieparametryczne procedury związane z funkcją gęstości odgrywają coraz większą rolę w analizach zmiennych ekonomicznych. Nieparametryczna estymacja funkcji gęstości w wielu przypadkach jest nie tylko procedurą stanowiącą punkt wyjścia do dalszych szczegółowych analiz statystycznych dotyczących zmiennej losowej, ale sta- nowi również niezwykle zwartą i wyczerpującą procedurę dostarczającą określone spektrum informacji o własnościach zmiennej losowej. Różnorodność rodzajów tego podejścia oznacza, z jednej strony, wykorzystanie wyników estymacji funkcji gęstości do określenia w sposób jednoznaczny klasy procedur wykorzystywanych w dalszych badaniach i analizach statystycznych, z drugiej zaś może stanowić docelową i kom- pletną procedurę statystyczną. Jest zatem procedurą statystyczną o bardzo ogólnym charakterze, jednocześnie gwarantując szczegółowość wyników analiz. Jądrowa estymacja funkcji gęstości jest procedurą stosowaną w analizach sta- tystycznych nie tylko dotyczących zjawisk ekonomicznych, ale również przyrod- 12 niczych czy technicznych, jednak konieczność podjęcia decyzji o  dwóch istot- nych parametrach metody jądrowej, tj. funkcji jądra i parametru wygładzania, w dużym stopniu ogranicza stosowalność tej metody. Wielość propozycji metod dostępnych w literaturze, związanych z wyborem odpowiednich parametrów me- tody jądrowej, prowadzi do znacznego uproszczenia stosowalności metody ją- drowej funkcji gęstości. W większości przypadków wykorzystywane są te metody wyboru parametrów metody jądrowej, które są łatwe do implementacji, co często oznacza niedoskonałość tych procedur. Tematem niniejszej monografii są procedury wyboru parametrów metody ją- drowej, ze szczególnym uwzględnieniem parametru wygładzania, gdyż w litera- turze przedmiotu wskazuje się na mniejsze znaczenie wyboru funkcji jądra w es- tymacji jądrowej funkcji gęstości. Wybór tematyki jest naturalnym rozwinięciem i podsumowaniem wcześniejszych badań autorki w tym zakresie. Dotyczyły one, w szczególności, analiz związanych z wyborem funkcji jądra, wyborem parametru wygładzania, stosowalności procedur jądrowych w badaniach ekonomicznych, co wiązało się z odpowiednią modyfikacją klasycznych procedur jądrowej estymacji funkcji gęstości, uwzględniających charakter tych zmiennych. Głównym celem badawczym autorki monografii jest analiza własności proce- dur wyboru parametru wygładzania w jądrowej estymacji funkcji gęstości, przy czym zasadniczym atrybutem branym pod uwagę przy analizach badań związa- nych z parametrem wygładzania był nie tylko aspekt metodologiczny, ale przede wszystkim możliwość zastosowania w  badaniach zmiennych ekonomicznych. Analizie poddano zarówno klasyczne, jak i nieklasyczne procedury wyboru para- metru wygładzania, wskazując w ten sposób na procedury optymalne w określo- nym zagadnieniu badawczym. Przedstawiono również wyniki badań dotyczących zaproponowanej autorskiej metody wyboru parametru wygładzania, uwzględnia- jącej informacje dodatkowe związane z populacją. Realizacja powyższego celu badawczego wymagała sprecyzowania celów szcze- gółowych, które są sformułowane następująco: – określenie rodzajów funkcji jądra, ich szczegółowa prezentacja oraz wska- zanie możliwości zastosowania określonej klasy funkcji jądra w konkretnej sytuacji badawczej, biorąc pod uwagę informacje dodatkowe dotyczące roz- kładu zmiennej losowej, – prezentacja metod wyboru wartości parametru wygładzania wraz z poda- niem najważniejszych własności metod, – porównanie wartości parametrów wygładzania w estymacji jądrowej funk- cji gęstości, dokonane przy uwzględnieniu różnych postaci funkcji jądra, co prowadzi do wskazania najlepszych par parametrów metody jądrowej w estymacji funkcji gęstości, – analiza własności autorskiej metody wyboru parametru wygładzania, – określenie najlepszych metod wyboru parametru wygładzania dla estymacji funkcji gęstości zmiennej losowej w badaniach ekonomicznych. Parametr wygładzania w estymacji jądrowej... Wprowadzenie 13 W wyniku analiz związanych z badaniem własności metod wyboru parametru wygładzania w estymacji jądrowej funkcji gęstości weryfikacji podlegały następu- jące hipotezy badawcze: – wybór parametru wygładzania w estymacji jądrowej funkcji gęstości zmien- nej losowej w badaniach ekonomicznych jest ściśle uzależniony od infor- macji dodatkowych dotyczących podstawowych charakterystyk rozkładu, takich jak asymetryczność i wielomodalność, – w określonych sytuacjach badawczych możliwe jest wskazanie optymalnych par parametrów metody jądrowej poprzez wskazanie najlepszej funkcji ją- dra dla określonej wartości parametru wygładzania, – przy estymacji jądrowej funkcji gęstości zmiennej losowej w  badaniach ekonomicznych informacje dodatkowe dotyczące jej rozkładu upraszczają procedurę wyboru optymalnych parametrów metody jądrowej z punktu wi- dzenia określonego błędu, – modyfikacje klasycznych procedur estymacji funkcji gęstości poprzez do- bór nieklasycznych postaci funkcji jądra oraz zastosowanie nieklasycznych metod wyboru parametru wygładzania powodują polepszenie własności es- tymacji jądrowej zmiennej losowej w badaniach ekonomicznych. Dla potrzeb realizacji celów dobrano odpowiednią strukturę pracy. W rozdzia- le pierwszym przedstawione są informacje związane z estymacją nieparametrycz- ną, w szczególności z estymacją jądrową funkcji gęstości. Podane są własności estymatora klasycznego typu Rosenblatta-Parzena, jak również zaprezentowane są modyfikacje postaci klasycznej estymatora wynikające z wystąpienia ograni- czonego nośnika zmiennej losowej, co w badaniach ekonomiczno-społecznych występuje dość często. W rozważaniach ogólnych dotyczących klasycznego po- dejścia w estymacji jądrowej szczególnego znaczenia nabiera szczegółowe okre- ślenie miary precyzji estymacji. W wielu metodach wyboru parametru wygładza- nia w estymacji jądrowej funkcji gęstości minimalizacja określonej ściśle miary precyzji pozwala na wyznaczenie właściwej wartości parametru wygładzania. Rozwinięciem rozważań związanych z  klasycznym podejściem jest prezentacja procedur dotyczących estymacji pochodnych określonego rzędu funkcji gęstości. W rozdziale drugim podjęto próbę usystematyzowania informacji dotyczących funkcji jądra prezentowanych w  literaturze przedmiotu. Wyodrębniono osiem rodzajów funkcji jądra, gdzie czynnikami klasyfikującymi odpowiednią funk- cję jądra do określonej grupy była konstrukcja, zasady stosowania w analizach praktycznych, charakter zmiennych losowych, których funkcja gęstości jest obję- ta estymacją oraz optymalność funkcji jądra. Wyodrębnione w ten sposób klasy w wielu przypadkach nie są rozłączne. Rozdział trzeci jest poświęcony metodom wyboru parametru wygładzania. Różnorodność prezentowanych w literaturze przedmiotu metod powoduje pew- ną nieokreśloność co do metody najlepszej. Stąd, w rozdziale tym przedstawio- no zarówno te metody, które są traktowane przez badaczy jako proste i szybkie 14 (uwypuklając ich wady), jak i metody bardziej zaawansowane, które mimo trud- ności w  implementacji powinny być stosowane w  praktyce. Zaprezentowano również autorską metodę wyboru parametru wygładzania opartą na uogólnionej średniej harmonicznej. Uzupełnieniem tych rozważań jest porównanie wybra- nych metod wyboru parametru wygładzania, ze szczególnym uwzględnieniem zależności między funkcją jądra i parametrem wygładzania oraz przy uwzględnie- niu, przy wyborze metody, informacji dodatkowej związanej ze zmienną losową. W rozdziale czwartym omówiono metody estymacji wielowymiarowej funkcji gęstości oraz procedury wyboru macierzy parametrów wygładzania. Odmien- ność metod wyboru parametrów w estymacji funkcji gęstości, przedstawionych w tym rozdziale, wynika bezpośrednio z faktu, że procedury stosowane dla wielo- wymiarowej estymacji nie są jedynie prostym rozszerzeniem procedur jednowy- miarowych. W rozdziale piątym wyniki analiz zawartych w poprzednich rozdziałach zosta- ły wykorzystane w zagadnieniach związanych z estymacją funkcji gęstości zmien- nej losowej w badaniach ekonomicznych, uwzględniając w sposób szczególny in- formacje wstępne dotyczące charakteru rozważanej zmiennej losowej. Przy przygotowywaniu publikacji opierano się głównie na literaturze angloję- zycznej, gdyż w literaturze polskiej jedynie kilka opracowań dotyczy problematyki nieparametrycznej estymacji jądrowej funkcji gęstości. Monografia zatem może stanowić uzupełnienie tej luki. W części pracy związanej z zastosowaniem procedur oraz z analizami porów- nawczymi stosowano metody symulacyjne przy wykorzystaniu oprogramowania MATLAB firmy Mathworks, wersja R2012a i R2014a. Autorka pragnie serdecznie podziękować Panu Profesorowi zw. dr. hab. Czesła- wowi Domańskiemu za życzliwość i wsparcie oraz Recenzentowi – Panu Profeso- rowi dr. hab. Grzegorzowi Kończakowi za cenne uwagi i sugestie zawarte w recen- zji, które wpłynęły z pewnością na poprawę jakości publikacji. Parametr wygładzania w estymacji jądrowej... Rozdział 1 Estymacja nieparametryczna funkcji gęstości 1.1. Uwagi wstępne Termin „statystyka parametryczna” bezpośrednio i  jednoznacznie wskazuje na procedury związane z charakterystyką (parametrem) populacji, które stosowane są na podstawie dostępnych danych, na przykład eksperymentalnych. Parametr może być rozumiany w dwojaki sposób: jako niesprecyzowana stała występująca w rodzinie rozkładów zmiennej losowej lub też, wykorzystując określenie w szer- szym sensie, parametr może oznaczać prawie wszystkie metody opisu zmiennej losowej w określonej rodzinie rozkładu (Gibbons, Chakraborti, 2003). Uwzględ- niając powyższe określenie statystyki parametrycznej, statystyka nieparametrycz- na rozumiana może być jako zbiór procedur, albo ściśle nieparametrycznego ro- dzaju (na przykład test nieparametryczny oznaczający weryfikację hipotezy, która nie dotyczy wartości parametru), lub też procedury stanowiące analogię do kla- sycznego (parametrycznego, uwzględniającego arbitralne założenie postaci bada- nych funkcji) podejścia, gdzie określone założenia dotyczące rozkładu są zastą- pione przez założenia o bardziej ogólnym charakterze niż w przypadku podejścia klasycznego. Mimo że procedury parametryczne charakteryzowane są prostotą teoretyczną i obliczeniową oraz powszechną znajomością i dostępnością w litera- turze, nie są one wystarczalne w wielu sytuacjach badawczych. Procedury nieparametryczne są procedurami uniwersalnymi (Domański, 1979, 1990), w związku z czym mogą one być stosowane odnośnie do różnorod- nych zagadnień poświęconych analizom populacji. Są wykorzystywane w  celu identyfikacji rozkładu populacji, jak również służą do opracowania wniosków związanych ze szczegółową charakterystyką zmiennej losowej w  populacji. Ich uniwersalność ma również odzwierciedlenie w możliwości stosowania procedur nieparametrycznych bez konieczności przyjmowania konkretnych założeń o po- pulacjach, z których otrzymujemy dane rzeczywiste, co jest sytuacją wymuszo- ną w praktyce, gdy brak jest informacji wstępnej o rozkładzie badanej populacji lub istnieje duże ryzyko związane z przyjęciem założenia dotyczącego rozkładu 16 (Domański i in., 1998). W wielu przypadkach są one z jednej strony łatwiejsze do implementacji, a  z  drugiej charakteryzują się jedynie nieznacznie mniejszą skutecznością niż procedury parametryczne. Należy jednak podkreślić, że w wie- lu przypadkach procedury nieparametryczne, chociaż koncepcyjnie proste oraz przejrzyste w zakresie interpretacji, wymuszają konieczność zastosowania odpo- wiedniej techniki komputerowej, co stanowiło wyraźną barierę zarówno w bada- niach teoretycznych, jak i aplikacyjnych. Określenie „nieparametryczne metody statystyczne” zostało wprowadzone do terminologii statystycznej przez Wolfowitza w 1942 roku (Wolfowitz, 1942) i związane było z koniecznoścą rozszerzenia stosowalności metod statystycznych ponad zwyczajowo wówczas wykorzystywane metody parametryczne. Należy zauważyć, że propozycje teoretyczne dotyczące metod nieparametrycz- nych oraz próby aplikacji pojawiały się już na początku XVIII wieku. John Arbu- thnot, w pracy wykorzystującej ewidencję chrztów dzieci w Londynie w latach 1629–1710, z podziałem na płeć (Arbuthnot, 1710), analizował źródło zaobser- wowanych regularności i upatrywał je w opatrzności boskiej (Ostasiewicz, 2012). Jednocześnie była to pierwsza próba zastosowania testu znaków, co przez niektó- rych statystyków (Noether, 1984; Domański, 1986) traktowane jest również jako prezentacja pierwszego testu statystycznego weryfikującego hipotezy statystyczne. Idea „wszechobecnego bóstwa”, zapewniającego określone wartości średniej staty- stycznej, jest utożsamiana z podwalinami rozwoju osiemnastowiecznej statystyki. Jednak to prace z początku XX wieku są traktowane jako właściwe początki dziedziny znanej jako statystyka nieparametryczna, w  szczególności prace Pe- arsona (1900, 1911) dotyczące zgodności rozkładów, praca Hotellinga i Pabsty z 1936 roku dotycząca korelacji rang (Hotelling, Pabst, 1936) oraz praca Wilcoxo- na (1945) poświęcona testom Wilcoxona dla jednej i dwóch prób. Akceptacja terminologii wprowadzonej przez Wolfowitza dotycząca statysty- ki nieparametrycznej nie była powszechna. Działo się to pomimo tego, że Wol- fowitz, obok konieczności prowadzenia badań w tym nowym wówczas obszarze statystyki, prezentował również próbę zastosowania zasady ilorazu wiarygodno- ści w przypadku nieparametrycznym, którą Neyman i Pearson zaproponowali już 10 lat wcześniej dla przypadku parametrycznego. W latach 40. XX wieku jedynie nieliczni statystycy z Uniwersytetu Columbia oraz Uniwersytetu Princeton wy- korzystywali to określenie w publikacjach w „Annals of Mathematical Statistics”. Natomiast w „Journal of the American Statistical Associations” po raz pierwszy termin nieparametryczny pojawił się dopiero w 1949 roku. Praca Scheffègo (1943) jest próbą nie tylko przedstawienia teoretycznych pod- staw do rozwoju statystyki nieparametrycznej, ale przede wszystkim jest pierwszą publikacją prezentującą w  kompletny sposób istniejące dotychczas nieparame- tryczne metody statystyczne, w tym nieparametryczne metody weryfikacji hipo- tez statystycznych (testy zgodności, testy losowości, testy dla dwóch prób, testy niezależności i testy analizy wariancji). Praca ta jest traktowana jako pionierska Parametr wygładzania w estymacji jądrowej... Estymacja nieparametryczna funkcji gęstości 17 w zakresie zdefiniowana estymacji nieparametrycznej, uwypuklając potencjalne problemy związane z terminologią. Scheffè, w celu uniknięcia niejednoznaczno- ści związanej z nazewnictwem, proponuje θ (będące parametrem rozkładu) nie nazywać parametrem, lecz jedynie liczbą rzeczywistą określoną przez rozkład. W  zagadnieniach związanych z  estymacją punktową wskazana została jedynie równoważność estymatorów parametrycznych i nieparametrycznych w zakresie nieobciążoności i  zgodności. Problemy estymacji przedziałowej przedstawione w równie wąskim zakresie związane były jedynie z przedziałami ufności dla me- diany, dla różnicy dwóch median oraz przedziałami ufności dla nieznanej dystry- buanty. Pierwsze próby estymacji charakterystyk funkcyjnych zostały sformalizowane i przedstawione w pracy Walda i Wolfowitza (1939), a dotyczyły one obszaru uf- ności dla dystrybuanty. Rozwój metod nieparametrycznych w ostatnich czterdziestu latach jest ściśle związany z rozwojem technik obliczeniowych. Zwiększenie mocy obliczeniowej współczesnych komputerów umożliwiło szybki rozwój metod nieparametrycz- nych, w tym zwiększenie liczby propozycji modyfikacji, mających na celu popra- wę efektywności rozważanych metod. Procedury nieparametryczne dotyczące charakterystyk funkcyjnych zmien- nych losowych, na przykład estymacja funkcji gęstości, uwzględniają fakt, że zbiór funkcji określonych na zbiorze liczb rzeczywistych R jest nieporównywanie licz- niejszy od R niż w przypadku na przykład estymacji liczby rzeczywistej lub wekto- ra (Gajek, Kałuszka, 1996). Może zatem wystąpić sytuacja, że nawet po zawężeniu klasy możliwych funkcji gęstości do zbioru funkcji i-krotnie różniczkowalnych (i ∈ N, N oznacza zbiór liczb naturalnych), nie istnieje estymator nieobciążony funkcji. Podejście nieparametryczne w estymacji charakterystyk funkcyjnych zmiennej losowej umożliwia przyjęcie zdecydowanie słabszych założeń dotyczących posta- ci funkcyjnej charakterystyki podlegającej estymacji w porównaniu z przyjmo- wanymi założeniami w metodach parametrycznych. W podejściu parametrycz- nym wymagane jest przyjęcie założenia, że znana jest rodzina funkcji gęstości, z której pochodzą obserwacje, na przykład w estymacji funkcji gęstości model parametryczny zakłada, że funkcja gęstości jest znana co do skończonej liczby pa- rametrów. Istnienie informacji wstępnej (określane jako „boskie spostrzeżenie”) o postaci funkcyjnej charakterystyki podlegającej estymacji powinno być wyko- rzystane i wówczas zastosowanie procedur parametrycznych traktowane jest jako wskazane. Gdy natomiast takich informacji wstępnych brak i założenie związa- ne z badaną charakterystyką funkcyjną oparte jest jedynie na niedostatecznych przesłankach lub brak jest takich przesłanek, procedura estymacji parametrycznej może prowadzić do nieprawidłowych wyników dotyczących charakterystyk funk- cyjnych podlegających wnioskowaniu. Opierając estymację na założeniu, że funk- cja gęstości jest określonym elementem ze znanej rodziny parametrycznej, badacz 18 musi brać pod uwagę możliwość błędnej specyfikacji modelu, co może oznaczać, że model nie jest zgodny z populacją, z której dane zostały pobrane. W szczegól- ności gdy przyjmowane jest założenie o normalności, w rzeczywistości narzucona jest grupa całkiem restrykcyjnych założeń, na przykład dotyczących symetrycz- ności, jednomodalności, określonej monotoniczności poza wartością modalną. Jeśli rzeczywista funkcja gęstości jest asymetryczna lub posiada wiele wartości modalnych, wówczas założenie o normalności może prowadzić do niewłaściwej charakterystyki funkcji gęstości i może skutkować fałszywymi wynikami estyma- cji oraz błędnym wnioskowaniem. Oczywiście możliwe jest postępowanie pole- gające na testowaniu, czy zakładany rozkład jest zgodny z rzeczywistością. Ale odrzucenie założenia dotyczącego rozkładu, niestety, nie skutkuje określeniem rozkładu alternatywnego, na przykład odrzucenie hipotezy o normalności spra- wia, że badacz nie otrzymuje informacji o innym możliwym rozkładzie, zmuszo- ny jest wrócić do punktu wyjścia. Podejście nieparametryczne oznacza uniknięcie problemów związanych z ko- niecznością specyfikacji parametrycznej postaci funkcyjnej przed dokonaniem procedur estymacyjnych. Przyjmowane są jedynie założenia, że spełnione są pew- ne warunki regularności, takie jak gładkość i różniczkowalność. A to są zdecydo- wanie słabsze założenia dotyczące struktury postaci funkcyjnej funkcji gęstości niż w przypadku metod parametrycznych. Na przykład, w estymacji rozkładu do- chodów zamiast przyjmowania założenia, że funkcja gęstości należy do rodziny rozkładów normalnych lub lognormalnych, przyjmuje się jedynie założenie, że funkcja gęstości jest dwukrotnie lub trzykrotnie różniczkowalna. Przyjęcie słab- szych założeń dotyczących struktury postaci funkcyjnej gęstości, niestety, powo- duje konieczność posiadania większej liczby danych by otrzymać ten sam stopień dokładności, co właściwie wyspecyfikowany model parametryczny. Podejście nie- parametryczne może oznaczać zatem konieczność zwiększenia liczby obserwacji w procedurach nieparametrycznych, by osiągnąć taki sam poziom precyzji, jak odnośnie do dobrze wyspecyfikowanego modelu parametrycznego. Z drugiej jed- nak strony podejście nieparametryczne pozwala na większą elastyczność w sto- sowaniu procedur statystycznych, ponieważ wymagane jest jedynie założenie, że nieznana funkcja gęstości należy do pewnego nieskończonego zbioru krzywych. Nieparametryczna estymacja funkcji gęstości w wielu przypadkach traktowana jest jako wstępny etap w analizie lub też jako analiza dotycząca dokładnie określo- nej charakterystyki funkcyjnej zmiennej losowej. Hansen (2009) określa podejście parametryczne jako podejście o skończonej wymiarowości, podczas gdy podejście nieparametryczne to podejście o nieskoń- czonej wymiarowości. Zasadnicza różnica związana z procedurami estymacji dotyczy szybkości zbież- ności. Podczas gdy w podejściu parametrycznym, właściwie wyspecyfikowanym, dla liczebności próby n, szybkość zbieżności jest rzędu n–1⁄2, to w przypadku po- dejścia nieparametrycznego tempo to jest wolniejsze niż n–1⁄2. Przy czym, w odróż- Parametr wygładzania w estymacji jądrowej... Estymacja nieparametryczna funkcji gęstości 19 nieniu od parametrycznego podejścia, tempo zbieżności jest zazwyczaj odwrotnie proporcjonalne do liczby zmiennych, co jest znane w literaturze jako „przekleń- stwo wymiarowości”. Jest ono traktowane jako jedno z najważniejszych utrudnień pojawiających się w procedurach nieparametrycznych (Stone, 1994; Pagan, Ullah, 1999). Stosowanie prawie każdej procedury statystycznej jest powiązane, mniej lub bardziej, z przekleństwem wymiarowości, w podejściu nieparametrycznym oznacza ono jednak konieczność stosowania bardzo dużych prób w celu zapew- nienia dokładności na odpowiednim poziomie. Metody nieparametryczne są za- tem zalecane szczególnie wtedy, gdy liczba zmiennych jest mała, natomiast zbiór danych duży (Silverman, 1986). Stosownie metod nieparametrycznych oznacza konieczność rozważenia odpowiednio dużej liczebności próby w  porównaniu z liczbą zmiennych. Ponadto w podejściu parametrycznym nie istnieje rozróżnienie między praw- dziwym modelem występującym w rzeczywistości a modelem wykorzystywanym w procedurze estymacji, natomiast w podejściu nieparametrycznym taka różnica między modelami istnieje. Metody nieparametryczne powodują wyższy stopień skomplikowania modelu dopasowywanego w zależności od próby. Im więcej informacji w próbie (co może oznaczać większą liczebność próby), tym większy stopień złożoności modelu. Wymaga to odrębnych twierdzeń dotyczących rozkładów. W podejściu nieparametrycznym modele dopasowywane są traktowane jako aproksymacje i dlatego też są z góry skazane na błędną specyfikację, a to impliku- je obciążenie estymatora. Zazwyczaj wzrost złożoności dopasowywanego mode- lu powoduje zmniejszenie obciążenia, ale oznacza jednocześnie wzrost wariancji estymacji. Stosowanie metod nieparametrycznych oznacza zatem konieczność uwzględniania tego kompromisu, co powoduje ustalenie takiego stopnia złożo- ności modelu, by zminimalizować ogólne miary dopasowania, na przykład błąd średniokwadratowy (MSE). Nieparametryczne procedury mogą dotyczyć, między innymi, funkcji gęsto- ści (jednowymiarowej i wielowymiarowej), pochodnych funkcji gęstości, warun- kowych funkcji gęstości, dystrybuanty, funkcji regresji, parametrów położenia, w tym mediany i kwantyli, parametrów skali, w tym wariancji. Nieparametrycz- na estymacja charakterystyk funkcyjnych może być głównym celem podjętych badań, ale może również stanowić punkt wyjściowy będący warunkiem, którego spełnienie umożliwia dalsze drugoetapowe zagadnienia estymacji lub weryfikacji hipotez statystycznych. Jeżeli problem rozważany w drugim etapie dotyczy para- metrów (skończonego wymiaru), wówczas estymacja traktowana jest jako semi- parametryczna. Badacz nie specyfikuje postaci funkcyjnej dla pewnych zakresów danych, ale dla niektórych zakresów założenia parametryczne są konieczne. Nieparametryczne metody obejmują pewien rodzaj aproksymacji oraz meto- dy wygładzania (jądrowe, szeregów, splajnów). Nieparametryczne metody są in- deksowane poprzez parametr wygładzania (parametr dostrajania), który określa 20 stopień złożoności. Wybór tego parametru wygładzania jest najczęściej zagadnie- niem kluczowym w zastosowaniach metod w praktyce. Oznacza to, że metody określania parametru wygładzania oparte na danych są traktowane jako istot- ne w nieparametrycznych metodach. Natomiast konieczność ich określenia jest często uważana za wadę metod nieparametrycznych. Metody nieparametryczne, które wymagają parametru wygładzania, ale nie mają określonej zależnej od da- nych reguły wyboru parametru wygładzania, są traktowane jako niekompletne (Hansen, 2009). Niestety, takie podejście występuje dość często, co jest związane z trudnościami w rozwijaniu szczegółowych zasad i reguł wyboru parametru wy- gładzania. Jest to pewien kompromis, gdyż parametr wygładzania jest wybierany w oparciu o odpowiedni problem statystyczny. Funkcja gęstości jest jedną z  podstawowych charakterystyk funkcyjnych zmiennej losowej. Warto pokreślić zarówno jej znaczenie teoretyczne, jak i wyko- rzystanie do praktycznych obliczeń i ilustracji wyników wieloaspektowych analiz (Kulczycki, 2005). Funkcja gęstości jest stosowana między innymi do wyznaczenia prawdopodobieństwa, że zmienna losowa przyjmuje wartość z ustalonego zbioru, natomiast jej prezentacja graficzna stanowi wygodne i intuicyjne narzędzie wstęp- nej analizy danych. W modelowaniu statystycznym funkcja gęstości stanowi opis schematu losowej zmienności danych, które nie są wyjaśnione przez inne struk- turalne charakterystyki w modelu (Bowman, Azzalini, 2004). W praktycznych za- gadnieniach funkcja gęstości najczęściej nie jest znana i musi być oszacowana na podstawie danych pochodzących z próby. Estymacja funkcji gęstości umożliwia wyjaśnienie i ocenę, czy potencjalny mo- del jest dopasowany do danych rzeczywistych. Pagan i Ullah (1999) zwracają uwa- gę na znaczenie estymatora funkcji gęstości w analizach Monte Carlo dotyczących estymatorów podlegających analizie. Nieparametryczny estymator funkcji gęsto- ści dostarcza całościowy obraz rozkładu estymatora i dlatego jest stosowany jako wygodna forma prezentacji wyników eksperymentów Monte Carlo. Przykładowo, estymator funkcji gęstości jest konieczny, gdy parametryczny estymator ma roz- kład asymptotyczny, który zależy od gęstości szacowanej w określonym punkcie. Estymacja funkcji gęstości może być wykorzystywana jako zasadniczy i pod- stawowy etap w analizie danych, o ile celem analizy statystycznej jest otrzymanie, na przykład, dogodnej formy prezentacji struktury danych. Może to być związane z analizą wartości modalnych, co prowadzi do wskazania odmiennych aspektów rozważanego zagadnienia, a następnie umożliwia dekompozycję przedmiotową. Analiza ogonów estymatora funkcji gęstości, rozważanych, na przykład, w pro- cesach produkcyjnych, gdzie „lekki” ogon wskazuje na zwykły rozrzut technolo- giczny, „ciężki” ogon – na zużycie sprzętu i konieczność wymiany konkretnych podzespołów (Kulczycki, 2005), również ma znaczenie praktyczne. W przypadku zmiennej losowej wielowymiarowej estymator jądrowy wielowymiarowej funkcji gęstości umożliwia analizę struktury danych w zakresie zależności między po- szczególnymi współrzędnymi tej zmiennej. Parametr wygładzania w estymacji jądrowej...
Pobierz darmowy fragment (pdf)

Gdzie kupić całą publikację:

Parametr wygładzania w estymacji jądrowej funkcji gęstości dla zmiennych losowych w badaniach ekonomicznych
Autor:

Opinie na temat publikacji:


Inne popularne pozycje z tej kategorii:


Czytaj również:


Prowadzisz stronę lub blog? Wstaw link do fragmentu tej książki i współpracuj z Cyfroteką: