Cyfroteka.pl

klikaj i czytaj online

Cyfro
Czytomierz
00033 007000 14665497 na godz. na dobę w sumie
Analiza statystyczna. Microsoft Excel 2010 PL - książka
Analiza statystyczna. Microsoft Excel 2010 PL - książka
Autor: Liczba stron: 456
Wydawca: Helion Język publikacji: polski
ISBN: 978-83-246-3668-6 Data wydania:
Lektor:
Kategoria: ebooki >> komputery i informatyka >> aplikacje biurowe >> excel
Porównaj ceny (książka, ebook, audiobook).

Zaufaj posiadanym danym!

Microsoft Excel 2010 to ukochane narzędzie studentów, analityków, księgowych, menedżerów i prezesów. Uniwersalność i niezawodność przy wykonywaniu operacji na ogromnych zbiorach danych zapewniła mu popularność w wielu dziedzinach życia. Jedną z nich jest statystyka i wnioskowanie statystyczne.

Dzięki tej książce wykorzystasz potencjał Excela do wyciągania lepszych, dokładniejszych i bardziej wiarygodnych wniosków na podstawie dostępnych danych. Nauczysz się graficznie prezentować posiadane informacje, tworzyć zaawansowane formuły oraz korzystać z niezwykle przydatnego narzędzia Solver. Ponadto dowiesz się, jak określić korelację zmiennych, korzystać z testów oraz nowych funkcji spójności. Książka ta idealnie sprawdzi się w rękach studentów mających do czynienia ze statystyką podczas zajęć. Zachwyci także menedżerów, których decyzje mogą zaważyć na losach firm i prowadzonych przez nie projektów!

Dzięki tej książce:

Trafne decyzje w zasięgu ręki!

Znajdź podobne książki Ostatnio czytane w tej kategorii

Darmowy fragment publikacji:

Tytuł oryginału: Statistical Analysis: Microsoft Excel 2010 Tłumaczenie: Maria Chaniewska ISBN: 978-83-246-3668-6 Authorized translation from the English language edition, entitled: Statistical Analysis: Microsoft Excel 2010, First Edition; ISBN 9780789747204, by Conrad Carlberg, published by Pearson Education, Inc, publishing as QUE Publishing, Copyright © 2011 by Pearson Education, Inc. All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Pearson Education Inc. Polish language edition published by Helion S.A. Copyright © 2012. Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniej-szej publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficz-ną, fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje naruszenie praw autorskich niniejszej publikacji. Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich właścicieli. Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie ponoszą również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce. Wydawnictwo HELION ul. Kościuszki 1c, 44-100 GLIWICE tel. 32 231 22 19, 32 230 98 63 e-mail: helion@helion.pl WWW: http://helion.pl (księgarnia internetowa, katalog książek) Drogi Czytelniku! Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres http://helion.pl/user/opinie/anaste Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję. Printed in Poland. • Kup książkę • Poleć książkę • Oceń książkę • Księgarnia internetowa • Lubię to! » Nasza społeczność Spis treści 1 Wstęp ........................................................................................................................... 11 Stosowanie Excela do analizy statystycznej ....................................................................................................... 11 Czytelnicy i Excel ......................................................................................................................................... 12 Porządkowanie terminów .......................................................................................................................... 13 Upraszczanie spraw .................................................................................................................................... 14 Zły produkt? ................................................................................................................................................ 15 Odwracanie kota ogonem ........................................................................................................................... 17 Co zawiera książka? ............................................................................................................................................ 17 Zmienne i wartości ................................................................................................... 19 Zmienne i wartości ............................................................................................................................................. 19 Zapisywanie danych w postaci list .............................................................................................................. 20 Skale pomiarowe ............................................................................................................................................... 23 Skale nominalne ......................................................................................................................................... 23 Skale liczbowe ............................................................................................................................................ 25 Określanie wartości przedziałowych na podstawie wartości tekstowych ................................................... 26 Graficzna prezentacja zmiennych liczbowych w Excelu ..................................................................................... 29 Graficzna prezentacja dwóch zmiennych .................................................................................................... 29 Pojęcie rozkładów liczebności ............................................................................................................................ 31 Stosowanie rozkładów liczebności .............................................................................................................. 34 Budowanie rozkładu liczebności na podstawie próby ................................................................................ 37 Tworzenie symulowanych rozkładów liczebności ....................................................................................... 45 Jak się skupiają wartości .......................................................................................... 49 Obliczanie średniej arytmetycznej ..................................................................................................................... 51 Funkcje, argumenty i wyniki ....................................................................................................................... 51 Formuły, wyniki i formaty ........................................................................................................................... 54 Minimalizowanie rozproszenia ................................................................................................................... 56 Obliczanie mediany ............................................................................................................................................ 61 Decyzja o użyciu mediany ........................................................................................................................... 63 Obliczanie wartości modalnej ............................................................................................................................ 63 Otrzymywanie wartości modalnej kategorii za pomocą formuły ................................................................ 69 Od tendencji centralnej do rozrzutu ................................................................................................................... 75 3 Rozrzut — jak się rozpraszają wartości ..................................................................... 77 Mierzenie rozproszenia za pomocą rozstępu ...................................................................................................... 78 Koncepcja odchylenia standardowego ............................................................................................................... 81 Dopasowanie do standardu ........................................................................................................................ 81 Myślenie w kategoriach odchyleń standardowych ..................................................................................... 83 2 4 Analiza statystyczna. Microsoft Excel 2010 PL 4 5 Obliczanie odchylenia standardowego i wariancji ..............................................................................................85 Podnoszenie odchyleń do kwadratu ............................................................................................................88 Parametry populacji i przykładowe statystyki .............................................................................................88 Dzielenie przez N–1 ....................................................................................................................................89 Obciążenie estymacji ..........................................................................................................................................91 Liczba stopni swobody ................................................................................................................................92 Funkcje Excela do mierzenia rozproszenia ..........................................................................................................93 Funkcje odchylenia standardowego ............................................................................................................93 Funkcje wariancji ........................................................................................................................................94 Jak zmienne wspólnie się zmieniają — korelacja .......................................................95 Pojęcie korelacji ..................................................................................................................................................95 Wyznaczanie współczynnika korelacji .........................................................................................................97 Korzystanie z funkcji WSP.KORELACJI() .....................................................................................................103 Korzystanie z narzędzi analitycznych ........................................................................................................107 Korzystanie z narzędzia Korelacja ..............................................................................................................108 Korelacja nie oznacza przyczynowości .......................................................................................................111 Stosowanie korelacji .........................................................................................................................................113 Usuwanie efektów skali ............................................................................................................................114 Korzystanie z funkcji Excela .......................................................................................................................117 Prognozowanie wartości ...........................................................................................................................118 Szacowanie funkcji regresji .......................................................................................................................120 Stosowanie funkcji REGLINW() do regresji wielorakiej .....................................................................................123 Łączenie predyktorów ...............................................................................................................................123 Najlepsza kombinacja liniowa ...................................................................................................................124 Pojęcie współdzielonej zmienności ...........................................................................................................127 Uwaga techniczna: algebra macierzowa i regresja wieloraka w Excelu ....................................................129 Przechodzenie do wnioskowania statystycznego .............................................................................................131 Jak zmienne są wspólnie klasyfikowane — tabele kontyngencji ...............................133 Jednowymiarowe tabele przestawne ...............................................................................................................133 Przeprowadzanie testu statystycznego .....................................................................................................136 Stawianie założeń .............................................................................................................................................141 Wybór losowy ............................................................................................................................................141 Niezależność wyborów ..............................................................................................................................143 Wzór na prawdopodobieństwo w rozkładzie dwumianowym ..................................................................144 Korzystanie z funkcji ROZKŁ.DWUM.ODWR() .............................................................................................145 Dwuwymiarowe tabele przestawne .................................................................................................................151 Prawdopodobieństwa i zdarzenia niezależne ...........................................................................................154 Sprawdzanie niezależności klasyfikacji .....................................................................................................156 Efekt Yule’a i Simpsona .....................................................................................................................................162 Podsumowanie funkcji Ȥ2 ..........................................................................................................................164 Spis treści 5 6 Prawdomówność statystyki .................................................................................... 173 Problemy z dokumentacją Excela ..................................................................................................................... 173 Kontekst wnioskowania statystycznego .......................................................................................................... 175 Pojęcie trafności wewnętrznej .................................................................................................................. 176 Test F z dwiema próbami dla wariancji ............................................................................................................ 181 Po co przeprowadzać ten test? ................................................................................................................. 182 7 Praca z rozkładem normalnym w Excelu .................................................................. 193 Opis rozkładu normalnego ............................................................................................................................... 193 Charakterystyki rozkładu normalnego ...................................................................................................... 193 Standaryzowany rozkład normalny .......................................................................................................... 199 Funkcje Excela dla rozkładu normalnego ......................................................................................................... 200 Funkcja ROZKŁ.NORMALNY() .................................................................................................................... 200 Funkcja ROZKŁ.NORMALNY.ODWR() ......................................................................................................... 203 Przedziały ufności i rozkład normalny .............................................................................................................. 205 Znaczenie przedziału ufności .................................................................................................................... 206 Konstruowanie przedziału ufności ............................................................................................................ 207 Funkcje arkusza Excela, które wyznaczają przedziały ufności ................................................................... 210 Korzystanie z funkcji UFNOŚĆ.NORM() I UFNOŚĆ() .................................................................................... 211 Korzystanie z funkcji UFNOŚĆ.T() .............................................................................................................. 214 Zastosowanie dodatku Analiza danych do przedziałów ufności ............................................................... 215 Przedziały ufności i testowanie hipotez .................................................................................................... 217 Centralne twierdzenie graniczne ..................................................................................................................... 217 Upraszczanie spraw .................................................................................................................................. 219 Ulepszanie spraw ...................................................................................................................................... 221 Testowanie różnic pomiędzy średnimi — podstawy ................................................. 223 Testowanie średnich — przesłanki ................................................................................................................. 224 Stosowanie testu z .................................................................................................................................... 225 Stosowanie błędu standardowego średniej .............................................................................................. 228 Tworzenie wykresów ................................................................................................................................ 232 Stosowanie testu t zamiast testu z ................................................................................................................... 240 Definiowanie reguły decyzyjnej ................................................................................................................ 242 Pojęcie mocy statystycznej ....................................................................................................................... 246 Testowanie różnic pomiędzy średnimi — dalsze zagadnienia ................................... 253 Stosowanie funkcji Excela ROZKŁ.T() i ROZKŁ.T.ODWR() do weryfikacji hipotez .............................................. 254 Stawianie hipotez jednostronnych i dwustronnych .................................................................................. 254 Wybieranie funkcji rozkładu t-Studenta w Excelu na podstawie hipotez ................................................. 255 Uzupełnienie obrazu za pomocą funkcji ROZKŁ.T() ................................................................................... 264 Korzystanie z funkcji T.TEST() ........................................................................................................................... 265 Stopnie swobody w funkcjach Excela ....................................................................................................... 265 Równe i nierówne liczebności grup .......................................................................................................... 266 Składnia funkcji T.TEST() ........................................................................................................................... 269 8 9 6 Analiza statystyczna. Microsoft Excel 2010 PL Korzystanie z narzędzi do testów t dodatku Analiza danych ............................................................................282 Wariancje grup w testach t .......................................................................................................................283 Wizualizacja mocy statystycznej ...............................................................................................................288 Kiedy unikać testów t ................................................................................................................................289 10 Testowanie różnic pomiędzy średnimi — analiza wariancji .......................................291 Dlaczego nie należy stosować testów t? ...........................................................................................................292 Koncepcja analizy wariancji ..............................................................................................................................293 Dzielenie wyników ....................................................................................................................................294 Porównywanie wariancji ...........................................................................................................................297 Test F .........................................................................................................................................................301 Stosowanie funkcji F arkusza Excela .................................................................................................................305 Korzystanie z funkcji ROZKŁ.F() i ROZKŁ.F.PS() ..........................................................................................305 Korzystanie z funkcji ROZKŁ.F.ODWR() i ROZKŁAD.F.ODW() ......................................................................306 Rozkład F ...................................................................................................................................................308 Nierówne liczebności grup ................................................................................................................................309 Procedury porównań wielokrotnych .................................................................................................................311 Procedura Scheffégo .................................................................................................................................312 Planowane różnice ortogonalne ...............................................................................................................317 11 Analiza wariancji — dalsze zagadnienia ..................................................................321 Czynnikowa analiza wariancji ...........................................................................................................................321 Inne przesłanki dla zastosowania wielu czynników ..................................................................................323 Korzystanie z narzędzia do dwuczynnikowej analizy wariancji .................................................................325 Znaczenie interakcji ..........................................................................................................................................328 Istotność statystyczna interakcji ................................................................................................................329 Obliczanie efektu interakcji .......................................................................................................................330 Problem nierównych liczebności grup ..............................................................................................................335 Powtarzane obserwacje — analiza dwuczynnikowa bez powtórzeń .......................................................338 Funkcje i narzędzia Excela — ograniczenia i rozwiązania ...............................................................................339 Moc testu F ................................................................................................................................................341 Modele mieszane ......................................................................................................................................342 12 Analiza regresji wielorakiej i rekodowanie zmiennych nominalnych — podstawy ......343 Regresja wieloraka a analiza wariancji .............................................................................................................344 Stosowanie rekodowania zmiennych ........................................................................................................346 Rekodowanie zmiennych — ogólne zasady .............................................................................................347 Inne typy kodowania .................................................................................................................................348 Regresja wieloraka i proporcje wariancji ..........................................................................................................349 Gładkie przejście od analizy wariancji do regresji ......................................................................................352 Znaczenie rekodowania zmiennych ..........................................................................................................355 Spis treści 7 Rekodowanie zmiennych w Excelu .................................................................................................................. 357 Korzystanie z narzędzia Regresja w Excelu do analizy grup o nierównych liczebnościach ............................... 360 Rekodowanie zmiennych, regresja i schematy czynnikowe w Excelu .............................................................. 362 Stosowanie kontroli statystycznej z korelacjami semicząstkowymi ......................................................... 364 Stosowanie kwadratów współczynników korelacji semicząstkowej do otrzymania prawidłowej sumy kwadratów ...................................................................................... 366 Stosowanie funkcji REGLINW() zamiast kwadratów współczynników korelacji semicząstkowej ..................... 367 Praca z resztami ........................................................................................................................................ 369 Stosowanie bezwzględnego i względnego adresowania Excela do wyznaczania kwadratów współczynników korelacji semicząstkowej ............................................... 372 13 Analiza regresji wielorakiej — dalsze zagadnienia .................................................. 377 Analiza niezrównoważonych schematów czynnikowych za pomocą regresji wielorakiej ................................ 378 W schemacie zrównoważonym zmienne nie są skorelowane ................................................................... 379 W schemacie niezrównoważonym zmienne są skorelowane ................................................................... 380 Kolejność wpisów w schemacie zrównoważonym nie jest istotna ........................................................... 381 Kolejność wpisów w schemacie niezrównoważonym jest istotna ............................................................ 384 Wahające się części wariancji ................................................................................................................... 386 Schematy eksperymentalne, badania obserwacyjne i korelacja ...................................................................... 387 Korzystanie z wszystkich statystyk funkcji REGLINP() ...................................................................................... 390 Wykorzystanie współczynników regresji .................................................................................................. 391 Wykorzystanie błędów standardowych .................................................................................................... 392 Wykorzystanie wyrazu wolnego ............................................................................................................... 392 Trzeci, czwarty i piąty wiersz wyników funkcji REGLINP() ........................................................................ 393 Radzenie sobie z nierównymi liczebnościami grup w prawdziwym eksperymencie ........................................ 397 Radzenie sobie z nierównymi liczebnościami grup w badaniach obserwacyjnych ........................................... 399 14 Analiza kowariancji — podstawy ........................................................................... 403 Cele analizy kowariancji ................................................................................................................................... 404 Większa moc ............................................................................................................................................. 404 Redukcja obciążenia ................................................................................................................................. 405 Stosowanie analizy kowariancji w celu zwiększenia mocy statystycznej ......................................................... 405 Analiza wariancji nie znajduje znaczącej różnicy średnich ........................................................................ 406 Dodawanie zmiennej towarzyszącej do analizy ........................................................................................ 408 Testowanie średniego współczynnika regresji ................................................................................................. 416 Usuwanie obciążenia — inny wynik ............................................................................................................... 418 15 Analiza kowariancji — dalsze zagadnienia .............................................................. 425 Korygowanie średnich za pomocą funkcji REGLINP() i rekodowania zmiennych ............................................. 425 Rekodowanie zmiennych za pomocą zmiennych wskaźnikowych i skorygowane średnie grup ...................... 431 8 Analiza statystyczna. Microsoft Excel 2010 PL Wielokrotne porównania po analizie kowariancji ............................................................................................434 Stosowanie metody Scheffégo ..................................................................................................................434 Stosowanie planowanych różnic ...............................................................................................................439 Analiza kowariancji wielorakiej ........................................................................................................................441 Decyzja o zastosowaniu wielu zmiennych towarzyszących .......................................................................442 Dwie zmienne towarzyszące — przykład .................................................................................................443 Skorowidz ...................................................................................................................447 7 W T Y M R O Z D Z I A L E : Opis rozkładu normalnego ...................... 193 Funkcje Excela dla rozkładu normalnego . 200 Przedziały ufności i rozkład normalny ...... 205 Centralne twierdzenie graniczne ............. 217 Praca z rozkładem normalnym w Excelu Opis rozkładu normalnego Nie da się przejść przez życie bez prawie co- dziennego kontaktu z rozkładem normalnym, czyli krzywą dzwonową. Twoje oceny w szkole podstawowej i średniej były umieszczane „na krzywej”. Wzrost i waga osób w rodzinie, sąsiedztwie i kraju są zbliżone do krzywej normalnej. Liczba wypadnięć orła podczas 10 rzutów symetryczną monetą przypomina krzywą normalną. Nawet ta mocno skrócona lista ilustruje niezwykłość fenomenu, który zaczęto dostrzegać 300 lat temu. Rozkład normalny zajmuje specjalne miejsce w teorii statystyki i rachunku prawdopodo- bieństwa. To główny powód, dla którego Excel oferuje więcej funkcji arkusza dotyczących rozkładu normalnego niż dowolnego innego, na przykład t-Studenta, dwumianowego, Pois- sona itd. Innym powodem przykładania tak dużej wagi do rozkładu normalnego jest to, że tak wiele zmiennych, które interesują ba- daczy — oprócz paru już wspomnianych — ma rozkład normalny. Charakterystyki rozkładu normalnego Nie istnieje tylko jeden rozkład normalny, ale ich nieskończona liczba. Chociaż jest ich tak dużo, nigdy nie spotkasz żadnego z nich w naturze. 194 Rozdział 7 Praca z rozkładem normalnym w Excelu Nie są to sprzeczne stwierdzenia. Istnieje krzywa normalna — lub, jak wolisz, rozkład normalny, lub krzywa dzwonowa, lub krzywa Gaussa — dla każdej pary liczb, ponieważ krzywa normalna może mieć dowolną średnią i dowolne odchylenie standardowe. Krzy- wa normalna może mieć średnią równą 100 i odchylenie standardowe równe 16 lub śred- nią 54,3 i odchylenie standardowe równe 10. Wszystko zależy od mierzonej zmiennej. Nigdy jednak nie zobaczysz rozkładu normalnego w naturze, ponieważ natura jest nie- uporządkowana. Widzisz dużą liczbę zmiennych, których rozkłady bardzo przypominają rozkład normalny. Jednak rozkład normalny jest wynikiem równania i dlatego może być dokładnie wykreślony. Jeżeli spróbujesz emulować krzywą normalną, przedstawiając wy- kres osób, których wzrost to 142, 143 cm itd., dostrzeżesz rozkład przypominający krzywą normalną już wtedy, gdy przedstawisz na wykresie dane około 30 osób. Gdy liczebność próby losowej osiągnie setki, zobaczysz, że rozkład liczebności wygląda w przybliżeniu normalnie — nie całkowicie, ale dość blisko. Gdy będą to tysiące, zobaczysz, że rozkład liczebności nie jest wizualnie rozróżnialny od krzywej normalnej. Ale jeżeli za- stosujesz funkcje dla skośności i kurtozy opisane w tym rozdziale, zauważysz, że ta krzywa po prostu nie jest doskonale normalna. Po pierwsze, wpływają na to drobne błędy próbko- wania, po drugie, pomiary nie są doskonale dokładne, a po trzecie i najważniejsze, rozkład normalny obejmuje wszystkie wartości rzeczywiste, a w przypadku każdego obserwowanego zjawiska wartości są ograniczone z góry i z dołu. Skośność Rozkład normalny nie jest skośny lewo- ani prawostronnie, ale jest symetryczny. Skośne rozkłady mają wartości, których częstości skupiają się z jednej strony i rozciągają z drugiej. Skośność a odchylenia standardowe Asymetria skośnego rozkładu powoduje, że znaczenie odchylenia standardowego jest inne od jego znaczenia w rozkładzie symetrycznym, takim jak krzywa normalna lub roz- kład t-Studenta (informacje na temat rozkładu t-Studenta znajdziesz w rozdziałach 8. i 9.). W rozkładzie symetrycznym, na przykład normalnym, blisko 34 pola powierzchni ob- szaru pod krzywą znajduje się pomiędzy średnią a jednym odchyleniem standardowym po- niżej średniej. Ponieważ ten rozkład jest symetryczny, dodatkowe 34 pola powierzchni znajduje się również pomiędzy średnią a jednym odchyleniem standardowym powyżej średniej. Jednak asymetria rozkładu skośnego powoduje, że równe procenty w rozkładzie syme- trycznym stają się nierówne. Na przykład w rozkładzie, który jest skośny prawostronnie, możesz znaleźć 45 pola powierzchni pod krzywą pomiędzy średnią arytmetyczną a jed- nym standardowym odchyleniem poniżej tej średniej. Inne 25 może się znajdować po- między średnią a jednym standardowym odchyleniem powyżej niej. Opis rozkładu normalnego 195 W tym przypadku nadal masz około 68 pola powierzchni pomiędzy jednym standardowym odchyleniem poniżej i jednym standardowym odchyleniem powyżej średniej arytmetycznej. Jednak to 68 jest podzielone tak, że jego duża część znajduje się poniżej średniej. Graficzne przedstawianie rozkładów skośnych Na rysunku 7.1 przedstawiono kilka rozkładów z różnymi stopniami skośności. Rysunek 7.1. Krzywa jest określona jako skośna w kierunku, w którym się rozciąga — krzywa log X jest skośna lewostronnie albo skośna ujemnie Krzywa normalna pokazana na rysunku 7.1 (oparta na wygenerowanej za pomocą dodatku Analiza danych Excela losowej próbie 5000 liczb) nie jest idealną krzywą normalną, ale jej bliską aproksymacją. Jej skośność obliczona przez funkcję Excela SKO¥NO¥m() wynosi –0,02. Jest to wartość bardzo bliska zera. Doskonała krzywa normalna ma skośność równą dokładnie 0. Krzywe X2 i log X na rysunku 7.1 są oparte na tych samych wartościach X co ilustracja przybliżonego rozkładu normalnego. Krzywa X2 rozciąga się w prawo i ma dodatnią sko- śność równą 0,57. Krzywa log X rozciąga się w lewo i ma skośność ujemną równą –0,74. Ogólnie rzecz biorąc, ujemne miary skośności wskazują na rozkład, który rozciąga się w lewo, a dodatnie miary skośności dotyczą wykresów rozciągniętych w prawo. Krzywa F na rysunku 7.1 jest oparta na prawdziwym rozkładzie F z 4 i 100 stopniami swobody. (Więcej na temat rozkładów F znajdziesz w tej książce, począwszy od rozdziału 10., „Testowanie różnic pomiędzy średnimi — analiza wariancji”. Rozkład F jest oparty na pro- porcji dwóch wariancji, z których każda ma pewną liczbę stopni swobody). Rozkłady F zawsze są skośne prawostronnie. Ten został tu umieszczony, abyś mógł porównać go z innym ważnym rozkładem — t-Studenta, który pojawi się w następnym podpunkcie na temat kurtozy krzywej. 196 Rozdział 7 Praca z rozkładem normalnym w Excelu Obliczanie skośności Istnieje kilka metod obliczania skośności zbioru liczb. Chociaż zwracane wartości są bliskie sobie nawzajem, żadne dwie metody nie dają dokładnie tych samych wyników. Niestety naukowcy nie doszli w tej sprawie do porozumienia. Piszę tu o większości stosowanych wzorów, abyś był świadomy braku jednej ogólnie obowiązującej metody. Badacze częściej niż kiedyś podają pewną miarę skośności, aby pomóc swoim klientom lepiej zrozumieć naturę danych. Przedstawienie miary skośności jest znacznie bardziej skuteczne niż dru- kowanie wykresu w gazecie i liczenie na to, że czytelnik zdecyduje, jak bardzo różni się ten rozkład od normalnego. Ta różnica może wpływać na wszystko — od znaczenia współczynni- ków korelacji do prawidłowości testów wnioskowania na podstawie zadanych danych. Na przykład jedna z miar skośności zaproponowana przez Karla Pearsona (tego od współ- czynnika korelacji Pearsona) jest pokazana tutaj: Skośność = (Średnia – Moda) / Odchylenie standardowe Jednak bardziej typowym sposobem jest użycie sumy podniesionych do sześcianu wartości standaryzowanych (wartości z) w rozkładzie. Jedna z takich metod obliczania skośności jest następująca: Jest to po prostu średnia z sześcianów wartości standaryzowanych. Excel używa odmiany takiej formuły w funkcji SKO¥NO¥m(): Po odrobinie zastanowienia można zauważyć, że funkcja Excela zawsze zwraca większą wartość niż prosta średnia sześcianów wartości standaryzowanych. Jeżeli liczba wartości w rozkładzie jest duża, te dwa podejścia są prawie równoważne. Jednak w przypadku tylko pięciu wartości funkcja SKO¥NO¥m() zwraca wartość ponad dwukrotnie większą niż średnia sześcianów wartości z. Spójrz na rysunek 7.2, gdzie oryginalne wartości w kolumnie A są po prostu powielone w kolumnie E. Zauważ, że zarówno średnia sześcianów wartości z, jak i wartość zwracana przez funkcję SKO¥NO¥m() zależą od liczby danych. Kurtoza Rozkład może być symetryczny, ale nadal daleki od normalnego wzorca, gdy jest bardziej wysmukły lub bardziej płaski niż prawdziwa krzywa normalna. Ta cecha jest nazywaną kurtozą krzywej. Opis rozkładu normalnego 197 Rysunek 7.2. Wraz ze wzrostem liczby wartości różnica pomiędzy średnią sześcianów wartości z a wartością zwracaną przez funkcję SKOŚNOŚĆ() jest coraz mniejsza Typy kurtozy Kilka przymiotników, które opisują naturę kurtozy krzywej, pojawia się prawie wyłącznie w podręcznikach statystyki: Q Platykurtyczna krzywa jest bardziej płaska i szeroka niż krzywa normalna. Q Mezokurtyczna krzywa ma przeciętną kurtozę. Krzywa normalna jest mezo- kurtyczna. Q Leptokurtyczna krzywa jest bardziej wypukła niż krzywa normalna — pole środ- kowe jest bardziej wysmukłe. Oznacza to, że większy obszar pod krzywą znajduje się na brzegach. Innymi słowy, grubsze ogony rozkładu zabierają więcej pola ze środka krzywej. Rozkład t-Studenta (patrz rozdział 8.) jest leptokurtyczny, ale im więcej obserwacji w próbie losowej, tym bardziej przypomina krzywą normalną. Ponieważ większy obszar znajduje się w ogonach rozkładu t-Studenta, konieczne są specjalne porównania w przy- padku wykorzystania tego rozkładu do testu średnich dla względnie małej próby losowej. Rozdziały 8. i 9. zawierają dość szczegółowy opis tego problemu, ale zobaczysz, że leptokurtyczny rozkład t-Studenta ma także zastosowanie w analizie regresji (patrz rozdział 12.). Rysunek 7.3 przedstawia krzywą zbliżoną do normalnej — w dowolnej proporcji, z kurtozą –0,03 bardzo bliską zera. Pokazuje także nieco leptokurtyczną krzywą z kur- tozą równą –0,80. 198 Rozdział 7 Praca z rozkładem normalnym w Excelu Rysunek 7.3. Obserwacje położone bliżej środka krzywej normalnej przesuwają się w kierunku ogonów krzywej leptokurtycznej Zauważ, że większy obszar pod krzywą leptokurtyczną znajduje się w ogonie rozkładu, a mniejszy w jego środku. Rozkład t-Studenta jest zgodny z tym wzorcem, a testy dotyczące takich statystyk jak średnie biorą to pod uwagę, gdy na przykład odchylenie standardowe jest nieznane, a liczebność próby mała. Gdy większa część pola powierzchni leży w ogonach rozkładu, krytyczne wartości potrzebne do odrzucenia hipotezy zerowej są większe niż w przypadku rozkładu normalnego. Ten efekt znajduje także zastosowanie w konstrukcji przedziałów ufności (opisanych dalej w tym rozdziale). Obliczanie kurtozy Przesłanki do obliczania kurtozy są takie same jak w przypadku obliczania skośności — liczba jest często bardziej skutecznym sposobem opisu niż wykres. Co więcej, znajomość oddalenia rozkładu od krzywej normalnej pomaga odbiorcom badań poznać kontekst po- zostałych wniosków. Excel oferuje funkcję arkusza KURTOZA() do obliczania kurtozy w zbiorze liczb. Niestety, podobnie jak w przypadku skośności, nie ustalono jednego wzoru na kurtozę. Statystycy zgadzają się jednak co do tego, że zalecane metody zwykle korzystają z pewnej odmiany not standardowych podniesionych do czwartej potęgi. Opis rozkładu normalnego 199 Oto podręcznikowa definicja kurtozy: W tej definicji N jest liczbą wartości w rozkładzie, a z reprezentuje odpowiednie wartości standaryzowane — jest to każda wartość pomniejszona o średnią i podzielona przez od- chylenie standardowe. Liczba 3 jest odejmowana, aby dla krzywej normalnej otrzymać wynik równy 0. Wtedy dodatnie wartości kurtozy wskazują rozkład leptokurtyczny, a ujemne — rozkład platy- kurtyczny. Ponieważ wartości standaryzowane są podnoszone do parzystej potęgi, ich suma (a dlatego również średnia) nie może być ujemna. Odejmowanie liczby 3 jest wy- godnym sposobem nadania platykurtycznym krzywym ujemnej wartości kurtozy. Niektóre wersje tej formuły nie odejmują tej liczby i zwracają wartość 3 dla krzywej normalnej. Funkcja KURTOZA() jest obliczana według poniższego wzoru, zgodnie z podejściem, które ma na celu korekcję obciążenia w estymacji parametru populacji za pomocą próby: Standaryzowany rozkład normalny Jedna szczególna wersja normalnego rozkładu ma specjalną wagę. Mowa tu o rozkładzie normalnym standaryzowanym lub normalnym standardowym. Jego kształt jest taki sam jak dowolnego rozkładu normalnego, ale średnia wynosi 0, a odchylenie standardowe 1. Ta lokalizacja (średnia 0) i rozproszenie (standardowe odchylenie równe 1) sprawiają, że jest on standardowy, co jest bardzo wygodne. Z powodu tych dwóch charakterystyk natychmiast znasz skumulowane pole powierzchni poniżej dowolnej wartości. W jednostkowym rozkładzie normalnym wartość 1 jest od- dalona w prawo o jedno standardowe odchylenie od średniej 0 i dlatego 84 pola po- wierzchni przypada po jej lewej stronie. Wartość –2 znajduje się dwa odchylenia standar- dowe poniżej średniej równej 0, więc 2,275 pola powierzchni leży po jej lewej stronie. Z drugiej strony załóżmy, że pracujesz z rozkładem, który ma średnią 7,63 centymetra i odchylenie standardowe 0,124 centymetra — przypuśćmy, że reprezentuje średnicę części maszyny, której rozmiar musi być precyzyjny. Jeżeli ktoś powie Ci, że jedna z części maszyny ma średnicę równą 7,816, prawdopodobnie będziesz musiał myśleć przez chwilę, zanim stwierdzisz, że jest to półtora odchylenia standardowego powyżej średniej. Ale jeżeli uży- wasz standaryzowanego rozkładu normalnego jako miary, po usłyszeniu wyniku 1,5 bę- dziesz znał dokładne położenie wymiaru tej części maszyny w rozkładzie. 200 Rozdział 7 Praca z rozkładem normalnym w Excelu Interpretacja znaczenia wartości jest szybsza i łatwiejsza, jeżeli używasz standaryzowane- go rozkładu normalnego. Excel ma funkcje arkusza przeznaczone do rozkładu normalne- go i są one łatwe w użyciu. Excel udostępnia także funkcje skrojone specjalnie do jednost- kowego rozkładu normalnego, które są jeszcze łatwiejsze w użyciu — nie trzeba podawać średniej ani odchylenia standardowego rozkładu, ponieważ są one znane. Następny pod- rozdział skupia się na tych funkcjach zarówno w Excelu 2010, jak i jego wcześniejszych wersjach. Funkcje Excela dla rozkładu normalnego Excel nazywa funkcje, które dotyczą rozkładu normalnego, w taki sposób, abyś zawsze wiedział, czy masz do czynienia z dowolnym rozkładem normalnym, czy ze standaryzo- wanym rozkładem normalnym ze średnią 0 i odchyleniem standardowym równym 1. Excel odwołuje się do standaryzowanego rozkładu normalnego jako „standardowego” normal- nego i dlatego używa litery S w nazwie funkcji. Dlatego funkcja ROZK’.NORMALNY() dotyczy dowolnego rozkładu normalnego, podczas gdy funkcja zgodności ROZK’AD.NORMALNY.S() i funkcja spójności ROZK’.NORMALNY.S() odnoszą się do standaryzowanego rozkładu normalnego. Funkcja ROZKŁ.NORMALNY() Załóżmy, że interesuje Cię rozkład w populacji poziomów lipoprotein o wysokiej gęstości (ang. high-density lipoprotein, HDL), czyli tzw. „dobrego cholesterolu”, wśród osób doro- słych powyżej 20. roku życia. Ta zmienna jest normalnie mierzona w miligramach na de- cylitr krwi (mg/dl). Zakładając, że poziomy HDL mają rozkład normalny (a mają), możesz dowiedzieć się więcej na temat rozkładu HDL w populacji, stosując wiedzę na temat krzywej normalnej. Sposobem, żeby to zrobić, jest użycie funkcji Excela ROZK’.NORMALNY(). Składnia funkcji ROZKŁ.NORMALNY() Funkcja ROZK’.NORMALNY() przyjmuje następujące dane jako argumenty: Q x — to wartość w rozkładzie, którą obliczasz. Jeżeli obliczasz poziomy HDL, możesz być zainteresowany konkretnym poziomem — powiedzmy, 60. Ta konkretna war- tość jest tą, którą podasz jako pierwszy argument funkcji ROZK’.NORMALNY(). Q ¥rednia — drugim argumentem jest średnia rozkładu, nad którym pracujesz. Załóżmy, że średni poziom HDL wśród ludzi powyżej 20. roku życia wynosi 54,3. Q Odchylenie standardowe — trzecim argumentem jest odchylenie standardowe rozkładu, nad którym pracujesz. Załóżmy, że standardowe odchylenie poziomów HDL wynosi 15. Funkcje Excela dla rozkładu normalnego 201 Q Skumulowany — czwarty argument wskazuje, czy chcesz otrzymać skumulowane prawdopodobieństwo poziomów HDL od 0 do x (równego w tym przykładzie 60), czy prawdopodobieństwo odpowiadające poziomowi HDL równemu dokładnie x (czyli 60). Jeżeli chcesz otrzymać skumulowane prawdopodobieństwo, podaj PRAWDA jako czwarty argument. W przeciwnym przypadku użyj wartości FA’SZ. Żądanie skumulowanego prawdopodobieństwa Formuła: =ROZK’.NORMALNY(60;54,3;15;PRAWDA) zwraca 0,648, czyli 64,8 . Oznacza to, że 64,8 pola powierzchni pod rozkładem poziomów HDL znajduje się pomiędzy 0 a 60 mg/dl. Ten wynik został pokazany na rysunku 7.4. Rysunek 7.4. Możesz dostosować liczbę linii siatki, formatując oś pionową, aby pokazywała więcej lub mniej głównych jednostek Jeżeli przytrzymasz wskaźnik myszy nad linią, która pokazuje skumulowane prawdopo- dobieństwo, zobaczysz małe okno podręczne informujące, który punkt danych wskazu- jesz i jakie jest jego położenie na osiach poziomej i pionowej. Raz utworzony wykres może poinformować Cię o prawdopodobieństwie związanym z dowolnym wykreślonym punk- tem, nie tylko opisanym tutaj 60 mg/dl. Jak widać na rysunku 7.4, możesz użyć albo linii siatki wykresu, albo wskaźnika myszy do wyznaczenia, że miara na przykład 60,3 mg/dl lub niższa jest zaliczana do około 66 populacji. 202 Rozdział 7 Praca z rozkładem normalnym w Excelu Żądanie oszacowania punktu Inaczej wygląda to, gdy jako czwarty (skumulowany) argument funkcji ROZK’.NORMALNY() wybierzesz FA’SZ. W tym przypadku funkcja zwraca prawdopodobieństwo związane z konkretnym punktem określonym w pierwszym argumencie. Stosuj wartość FA’SZ argumentu skumulowany, jeżeli chcesz znać wysokość krzywej normalnej dla konkretnej wartości obliczanego rozkładu. Rysunek 7.5 przedstawia jeden ze sposobów użycia funkcji ROZK’.NORMALNY() z argumentem skumulowany równym FA’SZ. Rysunek 7.5. Wysokość krzywej w dowolnym punkcie to wartość funkcji gęstości prawdopodobieństwa Nieczęsto zdarza się, że trzeba wyliczyć konkretną wysokość krzywej normalnej dla kon- kretnej wartości, ale jeżeli tak się stanie — na przykład po to, by narysować krzywą, która pomoże zobrazować wyniki — przydaje się podanie argumentu skumulowany równego FA’SZ. (Ta wartość — prawdopodobieństwo odpowiadające konkretnemu punktowi albo, inaczej, wysokość krzywej w tym punkcie — jest określana jako funkcja gęstości praw- dopodobieństwa). Jeżeli używasz wersji Excela wcześniejszej niż 2010, możesz użyć funkcji zgodności ROZK’AD.NORMALNY(). Jest ona taka sama jak ROZK’.NORMALNY() pod względem argu- mentów i zwracanych wartości. Funkcje Excela dla rozkładu normalnego 203 Funkcja ROZKŁ.NORMALNY.ODWR() Ze względów praktycznych zwykle funkcja ROZK’.NORMALNY() jest potrzebna po fakcie, czyli wtedy, gdy dane są już zebrane i znasz średnią oraz odchylenie standardowe próby losowej lub populacji. Rodzi się wtedy pytanie: gdzie dana wartość znajduje się w rozkładzie normalnym? Ta wartość może być średnią próby losowej, którą chcesz porównać z po- pulacją, lub pojedynczą obserwacją, którą chcesz umieścić w kontekście większej grupy. W tym przypadku możesz przekazać te informacje do funkcji ROZK’.NORMALNY(), która okre- śli prawdopodobieństwo obserwowania wartości mniejszej lub równej zadanej (skumulowany = PRAWDA) bądź wartość funkcji gęstości (skumulowany = FA’SZ). Możesz następnie po- równać to prawdopodobieństwo z przyjętym w eksperymencie współczynnikiem Į. Funkcja ROZK’.NORMALNY.ODWR() jest blisko związana z funkcją ROZK’.NORMALNY() i pozwala spojrzeć na zagadnienie z trochę innej perspektywy. Zamiast zwracać wartość przed- stawiającą pole powierzchni — czyli prawdopodobieństwo — funkcja ROZK’.NORMALNY.ODWR() zwraca wartość, która reprezentuje punkt na osi poziomej krzywej rozkładu normalnego. Jest to punkt, który podaje się jako pierwszy argument funkcji ROZK’.NORMALNY(). Na przykład w poprzedniej sekcji pokazaliśmy, że formuła: =ROZK’.NORMALNY(60;54,3;15;PRAWDA) zwraca wartość 0,648. Wartość 60 jest przynajmniej tak wielka jak 64,8 obserwacji w roz- kładzie normalnym o średniej 54,3 i odchyleniu standardowym równym 15. Z drugiej strony formuła: =ROZK’.NORMALNY.ODWR(0,648;54,3;15) zwraca wartość 60. Jeżeli rozkład ma średnią 54,3 i odchylenie standardowe równe 15, wtedy 64,8 obserwacji ma wartość 60 lub mniejszą. Ten przykład jest dobrą ilustracją. Zwykle nie zwróciłbyś uwagi, że 64,8 obserwacji leży poniżej konkretnej wartości. Załóżmy jednak, że podczas przygotowywania projektu badawczego zdecydowałeś, że uznasz za wiarygodny efekt pewnego oddziaływania (np. kuracji medycznej) tylko wtedy, gdy średnia grupy eksperymentalnej będzie się znajdowała w górnych 5 populacji. (Jest to spójne z tradycyjnym podejściem do badań z wykorzystaniem hipotezy zerowej, które zostanie znacznie bardziej szczegółowo opisane w rozdziałach 8. i 9.). W tym przypadku będziesz chciał wiedzieć, jaki wynik definiuje górne 5 . Jeżeli znasz średnią i odchylenie standardowe, funkcja ROZK’.NORMALNY.ODWR() wykona to zadanie za Ciebie. Zajmijmy się dalej populacją ze średnią 54,3 i odchyleniem standar- dowym równym 15. Formuła: =ROZK’.NORMALNY.ODWR(0,95;54,3;15) zwraca 78,97. Pięć procent obserwacji o rozkładzie normalnym, który ma średnią równą 54,3 i odchylenie standardowe równe 15, leży powyżej wartości 78,97. 204 Rozdział 7 Praca z rozkładem normalnym w Excelu Jak widzisz, w formule zastosowałem 0,95 jako pierwszy argument funkcji ROZK’.NORMALNY. ODWR(). Jest tak, ponieważ funkcja ROZK’.NORMALNY.ODWR zakłada skumulowane praw- dopodobieństwo — zauważ, że w przeciwieństwie do funkcji ROZK’.NORMALNY(), funkcja ROZK’.NORMALNY.ODWR() nie ma czwartego argumentu skumulowany. Dlatego pytanie, jaka wartość odcina górne 5 rozkładu, jest równoważne z pytaniem, jaka wartość odcina dolne 95 rozkładu. W tym kontekście wybór użycia funkcji ROZK’.NORMALNY() lub ROZK’.NORMALNY.ODWR() zależy głównie od rodzaju poszukiwanych informacji. Jeżeli chcesz wiedzieć, jakie jest prawdopodobieństwo, że zaobserwujesz liczbę tak dużą jak X, podaj tę wartość funkcji ROZK’.NORMALNY(), aby otrzymać prawdopodobieństwo. Jeżeli chcesz poznać liczbę, która służy jako ograniczenie pola powierzchni — pola, które odpowiada zadanemu prawdopodobieństwu — podaj pole powierzchni do funkcji ROZK’.NORMALNY.ODWR(), aby otrzymać tę liczbę. W każdym z tych przypadków musisz podać średnią i odchylenie standardowe. W przy- padku funkcji ROZK’.NORMALNY potrzebny jest dodatkowy argument określający, czy in- teresuje Cię skumulowane prawdopodobieństwo, czy wartość funkcji gęstości w punkcie. Funkcja spójności ROZK’.NORMALNY.ODWR() nie jest dostępna w wersjach Excela wcześniej- szych niż 2010, ale zamiast niej możesz użyć funkcji zgodności ROZK’AD.NORMALNY.ODW(). Argumenty i wyniki są takie same jak w przypadku funkcji ROZK’.NORMALNY.ODWR(). Korzystanie z funkcji ROZKŁ.NORMALNY.S() Można by wiele pisać o wyrażaniu odległości, wag, czasu itp. w ich oryginalnych jednost- kach pomiarowych. Służy do tego funkcja ROZK’.NORMALNY(). Kiedy jednak chcesz używać standardowej jednostki miary do zmiennej o rozkładzie normalnym, powinieneś pomyśleć o funkcji ROZK’.NORMALNY.S(). Litera S w nazwie funkcji oznacza oczywiście standardowy. Stosowanie funkcji ROZK’.NORMALNY.S() jest szybsze, ponieważ nie trzeba podawać średniej ani odchylenia standardowego. Średnia (0) i odchylenie standardowe (1) standa- ryzowanego rozkładu normalnego są znane z definicji. Wszystko, czego potrzebuje funkcja ROZK’.NORMALNY.S(), to wartość standaryzowana (wartość z) oraz wskazanie, czy ma obliczyć skumulowane pole powierzchni (PRAWDA), czy wartość funkcji gęstości w punkcie (FA’SZ). Funkcja korzysta z prostej składni: =ROZK’.NORMALNY.S(z;skumulowany) Dlatego formuła: =ROZK’.NORMALNY.S(1,5;PRAWDA) informuje Cię, że 93,3 pola powierzchni pod krzywą znajduje się po lewej stronie wartości standaryzowanej równej 1,5. W rozdziale 3., „Rozrzut — jak się rozpraszają wartości”, znaj- dziesz wprowadzenie do koncepcji wartości standaryzowanych, czyli wartości z. Przedziały ufności i rozkład normalny 205 OSTRZEŻENIE Funkcja zgodności ROZK’AD.NORMALNY.S() jest dostępna w wersjach Excela wcześniej- szych niż 2010. Jest to jedyna z funkcji zgodności rozkładu normalnego, której lista argumentów jest inna niż związanej z nią funkcji spójności. ROZK’AD.NORMALNY.S() nie ma argumentu skumulowany — zwraca domyślnie skumulowane pole powierzchni po lewej stronie argu- mentu z. W Excelu pojawi się ostrzeżenie o błędzie, jeżeli podasz argument skumulowany do funkcji ROZK’AD.NORMALNY.S(). Jeżeli chcesz obliczyć wartość punktową zamiast skumulowanego prawdopodobieństwa, powinieneś użyć funkcji ROZK’AD.NORMALNY(), podając 0 jako drugi argument, a 1 jako trzeci. Te dwa argumenty określają wspólnie jednost- kowy rozkład normalny. Następnie możesz podać wartość FA’SZ jako czwarty argument funkcji ROZK’AD.NORMALNY(). Oto przykład: =ROZK’AD.NORMALNY(1;0;1;FAïSZ) Korzystanie z funkcji ROZKŁ.NORMALNY.S.ODWR() Jeszcze łatwiej jest użyć funkcji odwrotnej do ROZK’.NORMALNY.S(), którą jest ROZK’.NOR- MALNY.S.ODWR(). Jedyny przyjmowany przez tę funkcję argument to prawdopodobieństwo: =ROZK’.NORMALNY.S.ODWR(0,95) Ta formuła zwraca 1,64, co oznacza, że 95 pola powierzchni pod krzywą normalną leży po lewej stronie wartości z równej 1,64. Jeżeli uczęszczałeś na kurs podstaw wnioskowania statystycznego, ta liczba prawdopodobnie wygląda znajomo, tak znajomo jak 1,96, która odcina 97,5 rozkładu. Te liczby występują powszechnie, ponieważ są związane z pojawiającymi się regularnie pod tabelami w prasowych i internetowych raportach wpisami „p 0,05” i „p 0,025” — koleinami, w które nie chciałbyś wpaść. Znacznie więcej informacji na temat takich wpi- sów znajduje się w rozdziałach 8. i 9. w kontekście rozkładu t-Studenta (który jest blisko związany z rozkładem normalnym). Funkcja zgodności ROZK’AD.NORMALNY.S.ODW() przyjmuje ten sam argument i zwraca te same wyniki co ROZK’.NORMALNY.S.ODWR(). Jest jeszcze jedna funkcja arkusza Excela, która dotyczy bezpośrednio rozkładu normal- nego — UFNO¥m.NORM(). Przed właściwym omówieniem jej celu i zastosowania niezbędne jest najpierw poznanie odrobiny podstaw teoretycznych. Przedziały ufności i rozkład normalny Przedział ufności to rozstęp wartości, który daje użytkownikowi poczucie, jak dokładnie dana statystyka szacuje parametr. Najbardziej znanym zastosowaniem przedziału ufności jest prawdopodobnie „margines błędu” umieszczany w wiadomościach na temat sondaży: 206 Rozdział 7 Praca z rozkładem normalnym w Excelu „Margines błędu wynosi ±3 punkty procentowe”. Jednak przedziały ufności są użyteczne w kontekście, który znacznie wykracza poza tę prostą sytuację. Przedziały ufności mogą być używane z rozkładami, które nie są normalne — takimi, któ- re są mocno skośne lub w inny sposób odróżniają się od normalnych. Jednak najprościej je poznać na przykładzie rozkładów symetrycznych, dlatego właśnie tym tematem się teraz zajmiemy. Nie myśl jednak, że możesz używać przedziałów ufności tylko do rozkła- dów normalnych. Znaczenie przedziału ufności Załóżmy, że zmierzyłeś poziom HDL w krwi 100 osób dorosłych na specjalnej diecie i ob- liczyłeś średnią 50 mg/dl z odchyleniem standardowym równym 20. Jesteś świadomy, że średnia jest statystyką, a nie parametrem populacji, i że inna próba 100 dorosłych na tej samej diecie prawdopodobnie zwróci inną wartość średniej. Po wielu powtórzonych losowaniach prób średnia całkowita — czyli średnia średnich prób losowych — okaże się bardzo, bardzo bliska parametru populacji. Jednak Twoje zasoby nie są tak duże i masz zamiar dokonać analizy tylko z tą jedną staty- styką, równą 50 mg/dl, którą obliczyłeś dla swojej próby. Chociaż wartość 20, którą obli- czyłeś dla odchylenia standardowego, jest statystyką, jest taka sama jak znane odchylenie standardowe populacji równe 20. Możesz teraz użyć standardowego odchylenia próby i liczby stablicowanych wartości HDL w celu wyznaczenia sensu w estymacji za pomocą tej próby. Robisz to, konstruując przedział ufności wokół średniej równej 50 mg/dl. Przypuśćmy, że przedział rozciąga się od 45 do 55. (I tutaj możesz zobaczyć związek z „±3 punkty procen- towe”). Czy to oznacza, że prawdziwa średnia populacji znajduje się gdzieś pomiędzy 45 a 55? Nie, chociaż może tak być. Tak jak istnieje wiele możliwych prób, które mógłbyś wylo- sować, ale tego nie zrobiłeś, istnieje wiele możliwych poziomów ufności, które mógłbyś wtedy skonstruować wokół średnich tych prób. Jak zobaczysz, poziom ufności konstruuje się w taki sposób, że gdybyś wziął dużo więcej średnich i umieścił wokół nich poziomy ufności, 95 poziomów ufności objęłoby prawdziwą średnią populacji. Dla konkretnego poziomu ufności, który skonstruowałeś, prawdopodobieństwo, że prawdziwa średnia popula- cji mieści się w tym przedziale, wynosi albo 1, albo 0 — przedział pokrywa średnią albo nie. Jednak bardziej racjonalne jest założenie, że przedział ufności, który przyjąłeś, jest jednym z 95 , które zawierają średnią populacji, niż założenie sytuacji odwrotnej. Dlatego bę- dziesz skłonny wierzyć z 95-procentową ufnością, że ten przedział jest jednym z tych, które zawierają średnią populacji. Chociaż pisałem w tym punkcie o 95-procentowych przedziałach ufności, możesz skon- struować także 90- lub 99-procentowe przedziały ufności czy nawet o dowolnym innym stopniu ufności, który ma dla Ciebie sens w danej sytuacji. Niebawem przekonasz się, jak Przedziały ufności i rozkład normalny 207 Twoje wybory podczas konstruowania przedziału wpływają na samą jego naturę. Opis stanie się prostszy, jeżeli na chwilę zapomnisz o swym niedowierzaniu. W skrócie: zamie- rzam poprosić Cię o wyobrażenie sobie sytuacji, w której znasz odchylenie standardowe miary w populacji, ale nie wiesz, jaka jest średnia tej populacji. To sytuacja nietypowa, ale jak najbardziej możliwa. Konstruowanie przedziału ufności samej średniej, liczby obserwacji w próbie, Przedział ufności dla średniej, zgodnie z opisem w poprzednim punkcie, wymaga nastę- pujących elementów składowych: Q Q odchylenia standardowego obserwacji, Q Q poziomu ufności, który chcesz zastosować do przedziału ufności. Zaczynając od poziomu ufności, załóżmy, że chcesz utworzyć 95-procentowy przedział ufności. Chcesz skonstruować go w taki sposób, żeby średnio w 95 przypadkach na 100 pokrył prawdziwą średnią populacji. Ponieważ w tym przypadku masz do czynienia z rozkładem normalnym, możesz wpisać następujące formuły do arkusza: =ROZK’.NORMALNY.S.ODWR(0,025) =ROZK’.NORMALNY.S.ODWR(0,975) Funkcja ROZK’.NORMALNY.S.ODWR() opisana w poprzednim podrozdziale zwraca wartość standaryzowaną, którą ma po lewej stronie ułamek pola powierzchni pod krzywą zadany jako argument. Dlatego funkcja ROZK’.NORMALNY.S.ODWR(0,025) zwraca –1,96. Jest to wartość z, po której lewej stronie leży 0,025, czyli 2,5 pola pod krzywą. Podobnie funkcja ROZK’.NORMALNY.S.ODWR(0,975) zwraca 1,96, czyli wartość z, która ma 97,5 pola pod krzywą po lewej stronie. Inaczej można powiedzieć, że 2,5 pola pod krzywą leży po jej prawej stronie. Te liczby są pokazane na rysunku 7.6. Pole powierzchni pod krzywą na rysunku 7.6 i pomiędzy wartościami 46,1 a 53,9 na osi poziomej obejmuje 95 pola powierzchni pod krzywą. Krzywa w teorii rozszerza się nie- skończenie w lewo i w prawo, więc wszystkie możliwe wartości średnich populacji są uwzględnione. 95 możliwych wartości leży wewnątrz 95-procentowego przedziału uf- ności pomiędzy 46,1 a 53,9. Liczby 46,1 i 53,9 zostały wybrane tak, aby obejmowały 95 . Jeżeli chciałbyś otrzymać 99-procentowy przedział ufności (lub jakiś inny, z mniejszym lub większym prawdopodo- bieństwem stanowiący jeden z przedziałów obejmujących średnią populacji), wybrałbyś inne liczby. Rysunek 7.7 przedstawia 99-procentowy przedział ufności wokół średniej próby równej 50. 208 Rozdział 7 Praca z rozkładem normalnym w Excelu Rysunek 7.6. Dostosowanie ograniczenia wartości z reguluje poziom ufności. Porównaj rysunki 7.6 i 7.7 Rysunek 7.7. Rozszerzanie przedziału daje większą pewność, że pokryje parametr populacji, ale nieuchronnie skutkuje mniej dokładnym oszacowaniem Na rysunku 7.7 99-procentowy przedział ufności rozszerza się z 44,8 do 55.2, czyli zwięk- sza się o 2,6 jednostki w stosunku do 95-procentowego przedziału ufności przedstawione- go na rysunku 7.6. Na sto 99-procentowych przedziałów ufności skonstruowanych wokół średnich 100 prób średnio
Pobierz darmowy fragment (pdf)

Gdzie kupić całą publikację:

Analiza statystyczna. Microsoft Excel 2010 PL
Autor:

Opinie na temat publikacji:


Inne popularne pozycje z tej kategorii:


Czytaj również:


Prowadzisz stronę lub blog? Wstaw link do fragmentu tej książki i współpracuj z Cyfroteką: