Cyfroteka.pl

klikaj i czytaj online

Cyfro
Czytomierz
00020 005331 19042174 na godz. na dobę w sumie
Analiza statystyczna. Microsoft Excel 2016 PL - książka
Analiza statystyczna. Microsoft Excel 2016 PL - książka
Autor: Liczba stron: 600
Wydawca: Helion Język publikacji: polski
ISBN: 978-83-283-4467-9 Data wydania:
Lektor:
Kategoria: ebooki >> komputery i informatyka >> aplikacje biurowe >> excel
Porównaj ceny (książka, ebook (-35%), audiobook).

Microsoft Excel jest naprawdę wszechstronnym narzędziem. Umożliwia tworzenie raportów, inteligentnych modeli, a także prowadzenie złożonych analiz statystycznych. Profesjonalni badacze, studenci i biznesmeni, którzy zajmują się analizą danych i statystyką, właśnie Excela traktują jako ulubione narzędzie pracy. Osiągnięcie biegłości w posługiwaniu się nim wymaga odrobiny wysiłku, jednak zdobyta w ten sposób wiedza okazuje się bardzo przydatna!

Niniejsza książka jest bardzo praktycznym przewodnikiem po analizie statystycznej i funkcjach statystycznych Excela. Dzięki licznym przykładom nauczysz się dobierać właściwe narzędzia do rozwiązania konkretnego problemu. Dowiesz się, jak korzystać z korelacji, regresji i analizy wariancji oraz kowariancji. Zastosujesz Excela do testowania hipotez statystycznych z zastosowaniem rozkładów normalnych, dwumianowych, t-Studenta i F-Snedecora. Zapoznasz się ze znaczeniem najważniejszych pojęć statystycznych i unikniesz typowych błędów. W tym wydaniu książki uwzględniono nowe funkcje, które pojawiły się w Excelu 2016. Dowiesz się, do czego służą i jak je można wykorzystać.

Najważniejsze zagadnienia ujęte w książce:

Analiza statystyczna: z Excelem to łatwe!


Dr Conrad Carlberg jest uznanym autorytetem w dziedzinie statystyki i analizy danych. Doskonale zna takie aplikacje, jak MS Excel, SAS i Oracle. Wielokrotnie otrzymywał nagrodę MVP. Od ponad 20 lat doradza firmom, które chcą podejmować decyzje biznesowe na podstawie analizy danych. Z radością pisze o tych technikach, ze szczególnym upodobaniem dzieląc się swoją ogromną wiedzą o MS Excelu, którego uważa za najpopularniejszy w świecie program do analiz numerycznych.

Znajdź podobne książki Ostatnio czytane w tej kategorii

Darmowy fragment publikacji:

Tytuł oryginału: Statistical Analysis: Microsoft Excel 2016 Tłumaczenie: Przemysław Janicki ISBN: 978-83-283-4467-9 Authorized translation from the English language edition, entitled: STATISTICAL ANALYSIS: MICROSOFT EXCEL 2016; ISBN 0789759055; by Conrad Carlberg; published by Pearson Education, Inc, publishing as QUE Publishing. Copyright © 2018 by Pearson Education, Inc. All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Pearson Education, Inc. Polish language edition published by HELION S.A. Copyright © 2018. Microsoft® and Windows® are registered trademarks of the Microsoft Corporation in the U.S.A. and other countries. Screenshots and icons reprinted with permission from the Microsoft Corporation. This book is not sponsored or endorsed by or affiliated with the Microsoft Corporation. Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną, fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje naruszenie praw autorskich niniejszej publikacji. Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich właścicieli. Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie ponoszą również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce. Wydawnictwo HELION ul. Kościuszki 1c, 44-100 GLIWICE tel. 32 231 22 19, 32 230 98 63 e-mail: helion@helion.pl WWW: http://helion.pl (księgarnia internetowa, katalog książek) Drogi Czytelniku! Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres http://helion.pl/user/opinie/anstae Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję. Pliki z przykładami omawianymi w książce można znaleźć pod adresem: ftp://ftp.helion.pl/przyklady/anstae.zip Printed in Poland. • Kup książkę • Poleć książkę • Oceń książkę • Księgarnia internetowa • Lubię to! » Nasza społeczność Spis treści Wstęp ..................................................................................................................... 13 Stosowanie Excela do analizy statystycznej ....................................................................................................... 13 Czytelnicy i Excel ......................................................................................................................................... 14 Porządkowanie terminów .......................................................................................................................... 15 Upraszczanie spraw .................................................................................................................................... 16 Zły produkt? ................................................................................................................................................ 17 Odwracanie kota ogonem ........................................................................................................................... 19 Co zawiera książka? ............................................................................................................................................ 20 1 Zmienne i wartości ................................................................................................... 21 Zmienne i wartości ............................................................................................................................................. 21 Zapisywanie danych w postaci list .............................................................................................................. 22 Korzystanie z list ......................................................................................................................................... 23 Skale pomiarowe ............................................................................................................................................... 25 Skale nominalne ......................................................................................................................................... 25 Skale liczbowe ............................................................................................................................................ 27 Określanie wartości przedziałowych na podstawie wartości tekstowych ................................................... 28 Graficzna prezentacja zmiennych liczbowych w Excelu ..................................................................................... 31 Graficzna prezentacja dwóch zmiennych .................................................................................................... 31 Pojęcie rozkładów liczebności ............................................................................................................................ 33 Stosowanie rozkładów liczebności .............................................................................................................. 36 Budowanie rozkładu liczebności na podstawie próby ................................................................................ 40 Tworzenie symulowanych rozkładów liczebności ....................................................................................... 49 Jak się skupiają wartości .......................................................................................... 51 Obliczanie średniej arytmetycznej ..................................................................................................................... 53 Funkcje, argumenty i wyniki ....................................................................................................................... 54 Formuły, wyniki i formaty ........................................................................................................................... 56 Minimalizowanie rozproszenia ................................................................................................................... 58 Obliczanie mediany ............................................................................................................................................ 64 Decyzja o użyciu mediany ........................................................................................................................... 65 Stabilna czy raczej odporna? ....................................................................................................................... 66 Obliczanie wartości modalnej ............................................................................................................................ 67 Otrzymywanie wartości modalnej kategorii za pomocą formuły ................................................................ 73 Od tendencji centralnej do rozrzutu ................................................................................................................... 80 3 Rozrzut — jak się rozpraszają wartości ..................................................................... 81 Mierzenie rozproszenia za pomocą rozstępu ...................................................................................................... 82 Rozstęp a liczebność próby ......................................................................................................................... 84 Zmienność na bazie rozstępu ...................................................................................................................... 85 2 Poleć książkęKup książkę 4 Analiza statystyczna. Microsoft Excel 2016 PL 4 Koncepcja odchylenia standardowego ...............................................................................................................87 Dopasowanie do standardu .........................................................................................................................88 Myślenie w kategoriach odchyleń standardowych ......................................................................................89 Obliczanie odchylenia standardowego i wariancji ..............................................................................................91 Podnoszenie odchyleń do kwadratu ............................................................................................................94 Parametry populacji i przykładowe statystyki .............................................................................................95 Dzielenie przez N–1 ....................................................................................................................................96 Obciążoność estymatora a stopnie swobody ......................................................................................................98 Funkcje Excela do mierzenia rozproszenia ........................................................................................................100 Funkcje odchylenia standardowego ..........................................................................................................100 Funkcje wariancji ......................................................................................................................................101 Jak zmienne wspólnie się zmieniają — korelacja .....................................................103 Pojęcie korelacji ................................................................................................................................................103 Wyznaczanie współczynnika korelacji .......................................................................................................105 Korzystanie z funkcji WSP.KORELACJI() .....................................................................................................112 Korzystanie z narzędzi analitycznych ........................................................................................................115 Korzystanie z narzędzia Korelacja ..............................................................................................................117 Korelacja nie oznacza przyczynowości .......................................................................................................120 Stosowanie korelacji .........................................................................................................................................122 Usuwanie efektów skali ............................................................................................................................123 Korzystanie z funkcji Excela .......................................................................................................................125 Prognozowanie wartości ...........................................................................................................................127 Szacowanie funkcji regresji .......................................................................................................................129 Stosowanie funkcji REGLINW() do regresji wielorakiej .....................................................................................131 Łączenie predyktorów ...............................................................................................................................131 Najlepsza kombinacja liniowa ...................................................................................................................133 Pojęcie współdzielonej zmienności ...........................................................................................................136 Dodatek techniczny: algebra macierzowa i regresja wieloraka w Excelu ..................................................138 5 Tworzenie wykresów ..............................................................................................141 Właściwości wykresów w Excelu ......................................................................................................................142 Osie wykresów ..........................................................................................................................................142 Wartości daty a oś kategorii ......................................................................................................................144 Inne wartości liczbowe a oś kategorii ........................................................................................................146 Histogramy .......................................................................................................................................................148 Używamy tabeli przestawnej do zliczania obiektów .................................................................................148 Używamy zaawansowanego filtra i funkcji CZĘSTOŚĆ() ............................................................................151 Histogram jako część dodatku Analiza danych ..........................................................................................154 Histogram na palecie wykresów ................................................................................................................154 Serie danych i ich adresy ...........................................................................................................................156 Poleć książkęKup książkę Spis treści 5 6 Wykresy pudełkowe ......................................................................................................................................... 157 Obserwacje odstające ............................................................................................................................... 160 Badamy asymetrię .................................................................................................................................... 160 Porównujemy rozkłady ............................................................................................................................. 160 Jak zmienne są wspólnie klasyfikowane — tabele kontyngencji ............................... 163 Jednowymiarowe tabele przestawne .............................................................................................................. 163 Przeprowadzanie testu statystycznego .................................................................................................... 167 Stawianie założeń ............................................................................................................................................ 173 Dobór losowy ............................................................................................................................................ 173 Niezależność elementów .......................................................................................................................... 175 Wzór na prawdopodobieństwo w rozkładzie dwumianowym ................................................................. 175 Korzystanie z funkcji ROZKŁ.DWUM.ODWR() ............................................................................................ 177 Dwuwymiarowe tabele przestawne ................................................................................................................ 183 Prawdopodobieństwa i zdarzenia niezależne ........................................................................................... 187 Sprawdzanie niezależności klasyfikacji ..................................................................................................... 189 O regresji logistycznej ............................................................................................................................... 195 Efekt Yule’a i Simpsona .................................................................................................................................... 196 Podsumowanie funkcji χ2 ................................................................................................................................ 199 Korzystanie z funkcji ROZKŁ.CHI() ............................................................................................................. 199 Korzystanie z funkcji ROZKŁ.CHI.PS() i ROZKŁAD.CHI() .............................................................................. 200 Korzystanie z funkcji ROZKŁ.CHI.ODWR() .................................................................................................. 202 Korzystanie z funkcji ROZKŁ.CHI.ODWR.PS() i ROZKŁAD.CHI.ODW() ......................................................... 202 Korzystanie z funkcji CHI.TEST() i TEST.CHI() ............................................................................................. 203 Stosowanie mieszanych i bezwzględnych odwołań do obliczenia oczekiwanych częstości ...................... 204 Korzystanie z wyświetlania indeksu tabeli przestawnej ........................................................................... 205 7 Praca z rozkładem normalnym w Excelu .................................................................. 207 Opis rozkładu normalnego ............................................................................................................................... 207 Charakterystyki rozkładu normalnego ...................................................................................................... 207 Standaryzowany rozkład normalny .......................................................................................................... 213 Funkcje Excela dla rozkładu normalnego ......................................................................................................... 214 Funkcja ROZKŁ.NORMALNY() .................................................................................................................... 214 Funkcja ROZKŁ.NORMALNY.ODWR() ......................................................................................................... 216 Przedziały ufności i rozkład normalny .............................................................................................................. 220 Znaczenie przedziału ufności .................................................................................................................... 220 Konstruowanie przedziału ufności ............................................................................................................ 221 Funkcje arkusza Excela, które wyznaczają przedziały ufności ................................................................... 225 Korzystanie z funkcji UFNOŚĆ.NORM() I UFNOŚĆ() .................................................................................... 226 Korzystanie z funkcji UFNOŚĆ.T() .............................................................................................................. 229 Poleć książkęKup książkę 6 Analiza statystyczna. Microsoft Excel 2016 PL Zastosowanie dodatku Analiza danych do przedziałów ufności ................................................................230 Przedziały ufności i testowanie hipotez ....................................................................................................232 Centralne twierdzenie graniczne ......................................................................................................................233 O pewnej osobliwości tabel przestawnych słów kilka ...............................................................................234 Upraszczanie spraw ...................................................................................................................................235 Ulepszanie spraw ......................................................................................................................................238 8 Prawdomówność statystyki .....................................................................................239 Kontekst wnioskowania statystycznego ...........................................................................................................240 Zapewnienie trafności wewnętrznej .........................................................................................................241 Zagrożenia trafności wewnętrznej ............................................................................................................243 Problemy z dokumentacją Excela .....................................................................................................................247 Test F z dwiema próbami dla wariancji .............................................................................................................249 Po co przeprowadzać ten test? ..................................................................................................................250 Replikowalność badań ......................................................................................................................................262 Uwagi końcowe ................................................................................................................................................265 9 Testowanie różnic pomiędzy średnimi — podstawy .................................................267 Testowanie średnich — przesłanki ..................................................................................................................268 Stosowanie testu z ....................................................................................................................................270 Stosowanie błędu standardowego średniej ..............................................................................................272 Tworzenie wykresów .................................................................................................................................277 Stosowanie testu t zamiast testu z ...................................................................................................................285 Definiowanie reguły decyzyjnej ................................................................................................................287 Pojęcie mocy statystycznej ........................................................................................................................292 10 Testowanie różnic pomiędzy średnimi — dalsze zagadnienia ....................................299 Stosowanie funkcji Excela ROZKŁ.T() i ROZKŁ.T.ODWR() do weryfikacji hipotez ...............................................300 Hipotezy jednostronne a hipotezy dwustronne .........................................................................................300 Dobieranie funkcji rozkładu t-Studenta w Excelu do stawianych hipotez .................................................302 Uzupełnienie obrazu za pomocą funkcji ROZKŁ.T() ...................................................................................310 Korzystanie z funkcji T.TEST() ...........................................................................................................................311 Stopnie swobody w funkcjach Excela ........................................................................................................312 Równe i nierówne liczebności grup ...........................................................................................................312 Składnia funkcji T.TEST() ...........................................................................................................................315 Korzystanie z narzędzi do testów t w dodatku Analiza danych .........................................................................329 Wariancje grupowe w testach t .................................................................................................................329 Wizualizacja mocy statystycznej ...............................................................................................................335 Kiedy unikać testów t ................................................................................................................................336 Poleć książkęKup książkę Spis treści 7 11 Testowanie różnic pomiędzy średnimi — analiza wariancji ...................................... 337 Dlaczego nie testy t? ........................................................................................................................................ 338 Koncepcja analizy wariancji ............................................................................................................................. 340 Dzielenie wyników .................................................................................................................................... 340 Porównywanie wariancji .......................................................................................................................... 343 Test F ........................................................................................................................................................ 348 Stosowanie funkcji F arkusza Excela ................................................................................................................. 352 Korzystanie z funkcji ROZKŁ.F() i ROZKŁ.F.PS() ......................................................................................... 352 Korzystanie z funkcji ROZKŁ.F.ODWR() i ROZKŁAD.F.ODW() ...................................................................... 353 Rozkład F .................................................................................................................................................. 355 Nierówne liczebności grup ............................................................................................................................... 357 Procedury porównań wielokrotnych ................................................................................................................ 358 Procedura Scheffégo ................................................................................................................................. 360 Planowane kontrasty ortogonalne ........................................................................................................... 365 12 Analiza wariancji — dalsze zagadnienia ................................................................. 369 Czynnikowa analiza wariancji .......................................................................................................................... 369 Inne przesłanki dla zastosowania wielu czynników .................................................................................. 371 Korzystanie z narzędzia do dwuczynnikowej analizy wariancji ................................................................ 373 Znaczenie interakcji ......................................................................................................................................... 376 Istotność statystyczna interakcji ............................................................................................................... 377 Obliczanie efektu interakcji ....................................................................................................................... 379 Problem nierównych liczebności grup ............................................................................................................. 384 Powtarzane obserwacje — analiza dwuczynnikowa bez powtórzeń ...................................................... 387 Funkcje i narzędzia Excela — ograniczenia i rozwiązania ............................................................................... 388 Modele mieszane ...................................................................................................................................... 390 Moc testu F ............................................................................................................................................... 390 13 Planowanie eksperymentu a ANOVA ....................................................................... 393 Czynniki skrzyżowane i czynniki zagnieżdżone ................................................................................................ 393 Prawidłowy opis eksperymentu ............................................................................................................... 395 Czynniki uciążliwe ..................................................................................................................................... 397 Czynniki stałe i czynniki losowe ....................................................................................................................... 397 Narzędzia ANOVA dostępne w dodatku Analiza danych ........................................................................... 399 Układ danych ............................................................................................................................................ 402 Wyznaczamy wartości statystyki F ................................................................................................................... 403 Dostosowujemy dodatek Analiza danych do czynników losowych ........................................................... 403 Idea testu F ............................................................................................................................................... 404 Model mieszany: wybór postaci mianownika ........................................................................................... 406 Dostosowujemy dodatek Analiza danych do czynników zagnieżdżonych ................................................ 408 Poleć książkęKup książkę 8 Analiza statystyczna. Microsoft Excel 2016 PL Układ danych dla schematu zagnieżdżonego ............................................................................................409 Sumy kwadratów ......................................................................................................................................410 Statystyka F dla czynnika zagnieżdżającego .............................................................................................411 Bloki zrandomizowane .....................................................................................................................................412 Interakcja między czynnikami a blokami ..................................................................................................413 Test nieaddytywności Tukeya ....................................................................................................................415 Zwiększamy moc statystyczną ..................................................................................................................418 Bloki: stałe czy losowe? .............................................................................................................................419 Schemat czynnikowy split-plot .........................................................................................................................420 Tworzymy schemat split-plot ....................................................................................................................420 Analiza schematu split-plot ......................................................................................................................422 14 Moc statystyczna ....................................................................................................427 Kontrola ryzyka .................................................................................................................................................428 Testy jednostronne i dwustronne ..............................................................................................................428 Zmiana liczebności próby ..........................................................................................................................429 Wizualizacja mocy testu ............................................................................................................................429 Moc statystyczna testów t ................................................................................................................................433 Test dwustronny ........................................................................................................................................434 Testy jednostronne ....................................................................................................................................437 Zwiększanie rozmiaru próby .....................................................................................................................438 Test t dla grup zależnych ...........................................................................................................................439 Parametr niecentralności w rozkładzie F ..........................................................................................................441 Oszacowania wariancji ..............................................................................................................................442 Parametr niecentralności a funkcja gęstości prawdopodobieństwa .........................................................446 Obliczamy moc testu F ......................................................................................................................................448 Wyznaczamy wartość dystrybuanty rozkładu F .........................................................................................449 Wykorzystanie mocy testu do optymalizacji liczebności próby .................................................................450 15 Analiza regresji wielorakiej i rekodowanie zmiennych nominalnych — podstawy ......455 Regresja wieloraka a analiza wariancji .............................................................................................................456 Stosowanie rekodowania zmiennych ........................................................................................................458 Rekodowanie zmiennych — ogólne zasady .............................................................................................459 Inne sposoby kodowania ...........................................................................................................................461 Regresja wieloraka a alokacja wariancji ...........................................................................................................461 Gładkie przejście od analizy wariancji do regresji ......................................................................................464 Znaczenie rekodowania zmiennych ..........................................................................................................467 Rekodowanie zmiennych w Excelu ...................................................................................................................469 Korzystanie z narzędzia Regresja w Excelu do analizy grup o nierównych liczebnościach ................................472 Poleć książkęKup książkę Spis treści 9 Rekodowanie zmiennych, regresja i schematy czynnikowe w Excelu .............................................................. 474 Stosowanie kontroli statystycznej z korelacjami semicząstkowymi ......................................................... 476 Stosowanie kwadratów współczynników korelacji semicząstkowej do otrzymania prawidłowej sumy kwadratów .............................................................................................................. 478 Stosowanie funkcji REGLINW() zamiast kwadratów współczynników korelacji semicząstkowej ..................... 479 Praca z resztami ........................................................................................................................................ 482 Stosowanie bezwzględnego i względnego adresowania Excela do wyznaczania kwadratów współczynników korelacji semicząstkowej ............................................... 484 16 Analiza regresji wielorakiej i rekodowanie zmiennych nominalnych — dalsze zagadnienia ........................................................................................... 489 Analiza niezrównoważonych schematów czynnikowych za pomocą regresji wielorakiej ................................ 490 W schemacie zrównoważonym zmienne nie są skorelowane ................................................................... 491 W schemacie niezrównoważonym zmienne są skorelowane ................................................................... 493 Kolejność zmiennych w schemacie zrównoważonym nie jest istotna ...................................................... 494 Kolejność zmiennych w schemacie niezrównoważonym jest istotna ....................................................... 497 Wahające się udziały wariancji ................................................................................................................. 499 Schematy eksperymentalne, badania obserwacyjne i korelacja ...................................................................... 500 Kompletny zestaw wyników funkcji REGLINP() ............................................................................................... 504 Tajniki funkcji REGLINP() .................................................................................................................................. 511 Jak działa REGLINP() ................................................................................................................................. 512 Współczynniki regresji .............................................................................................................................. 514 Sumy kwadratów dla regresji oraz reszt ................................................................................................... 518 Statystyki diagnostyczne regresji ............................................................................................................. 521 Jak funkcja REGLINP() radzi sobie ze współliniowością ............................................................................ 525 Restrykcje zerowe na wyraz wolny ........................................................................................................... 531 Excel 2007 ................................................................................................................................................. 532 Nierówne liczebności grup w prawdziwym eksperymencie ............................................................................. 540 Nierówne liczebności grup w badaniach obserwacyjnych ................................................................................ 543 17 Analiza kowariancji — podstawy ........................................................................... 547 Cele analizy kowariancji ................................................................................................................................... 548 Większa moc ............................................................................................................................................. 548 Redukcja obciążenia ................................................................................................................................. 549 Stosowanie analizy kowariancji w celu zwiększenia mocy statystycznej ......................................................... 549 Analiza wariancji nie znajduje znaczącej różnicy średnich ........................................................................ 550 Dodawanie zmiennej towarzyszącej do analizy ........................................................................................ 552 Testowanie średniego współczynnika regresji ................................................................................................. 560 Usuwanie obciążenia — inny przypadek ........................................................................................................ 563 Poleć książkęKup książkę 10 Analiza statystyczna. Microsoft Excel 2016 PL 18 Analiza kowariancji — dalsze zagadnienia ..............................................................569 Korygowanie średnich za pomocą funkcji REGLINP() i rekodowania zmiennych ..............................................569 Rekodowanie zmiennych a skorygowane średnie grup ....................................................................................575 Wielokrotne porównania po analizie kowariancji ............................................................................................578 Metoda Scheffégo .....................................................................................................................................579 Kontrasty planowane ................................................................................................................................584 Analiza kowariancji wielorakiej ........................................................................................................................586 Decyzja o zastosowaniu wielu zmiennych towarzyszących .......................................................................586 Dwie zmienne towarzyszące — przykład .................................................................................................587 Kiedy nie stosować metody ANCOVA ................................................................................................................589 Grupy zdeterminowane .............................................................................................................................589 Ekstrapolacja .............................................................................................................................................591 Skorowidz ...................................................................................................................593 Poleć książkęKup książkę Prawdomówność statystyki 8 W T Y M R O Z D Z I A L E : Kontekst wnioskowania statystycznego ... 240 Problemy z dokumentacją Excela ........... 247 Test F z dwiema próbami dla wariancji ... 249 Replikowalność badań .......................... 262 Uwagi końcowe .................................... 265 Kilkadziesiąt lat temu niejaki Darrell Huff napisał książkę zatytułowaną How to Lie with Statistics („Jak kłamać za pomocą statystyki”). W książce opisano różnorodne zdumiewa- jące sposoby użycia statystyki, zastosowane często w sposób niezamierzony i powodujące zmylenie odbiorców. Podczas przygotowywania tej książki przej- rzałem ponownie publikację Huffa (nie by- łem nawet w przedszkolu, gdy została ona wydana) i przypomniała mi ona, że częstym powodem zejścia na manowce podczas sto- sowania statystyki jest błędny kontekst. W kolejnym rozdziale będziemy kontynuować zapoczątkowane w rozdziale poprzednim przej- ście od statystyki opisowej do wnioskowania statystycznego — wnioskowania o parame- trach i rozkładach w populacji na podstawie ich odpowiedników w próbie. Zanim jednak wejdę głębiej w tematykę wnioskowania sta- tystycznego z wykorzystaniem Excela, powi- nienem, jak sądzę, zwrócić Twoją uwagę na to, że w pewnych sytuacjach zarówno statystyka opisowa, jak i wnioskowanie statystyczne mo- gą sprowadzić Cię na manowce. W moim przekonaniu źródłem problemu są przede wszystkim trzy kwestie:  pozyskiwanie danych na drodze błędnie zaplanowanego eksperymentu,  niezrozumienie sposobu działania apli- kacji statystycznych lub błędna inter- pretacja uzyskiwanych w nich wyników,  utrata kontroli nad warunkami prze- biegu eksperymentu. Poleć książkęKup książkę 240 Rozdział 8 Prawdomówność statystyki Dlatego zamierzam poświęcić część tego rozdziału na omówienie kontekstu analizy staty- stycznej, tzn. jak stworzyć sytuację, w której wyniki analizy faktycznie będą miały przypisy- wane im znaczenie. Kiedy dane są zbierane poza kontekstem ściśle zdefiniowanego ekspe- rymentu, nie są wiarygodne. Gorzej nawet: jak zauważa Huff, łatwo mogą wprowadzić w błąd. Aby upewnić się na sto procent, że umiejscowiłeś swoje analizy we właściwym kon- tekście, powinieneś zadać sobie wprost pytanie o to, co może zagrażać wiarygodności Twoich badań. Najlepszą odpowiedzią na to pytanie będzie w pełni zgodne z regułami sztuki zapla- nowanie całego eksperymentu. Większą część tego rozdziału zamierzam poświęcić omówieniu problemów, które wyni- kają głównie ze sposobu, w jaki Excel implementuje i dokumentuje wybrane narzędzia służące do automatyzacji analiz statystycznych. W dalszej części rozdziału nawiązuję również do pewnego eksperymentu poznawczego, który być może pozwoli nam odpowiedzieć na pytanie, czy wyniki mogą być zreplikowane (odtworzone). Odpowiedzi tej poszukują obecnie członkowie grupy badawczej z USA — być może słyszałeś o tym eksperymencie, zwanym często projektem badania replikowalności. Zakładam, że nie sięgnąłeś po tę książkę — a w każdym razie nie na tym etapie jej lektury — by dowiedzieć się, w jakich sytuacjach (i dlaczego) statystyka może okazać się zwodni- cza. Mogę więc jedynie zachęcić Cię, byś przeczytał ten rozdział z uwagą i wziął sobie do serca przynajmniej część z płynących z niego wniosków. Jeżeli niewłaściwie zaplanujesz swój eksperyment badawczy, dalsza analiza uzyskanych wyników będzie pozbawiona sensu: będzie stratą czasu zarówno dla samego badacza, jak i odbiorców rezultatów jego pracy. Pamiętaj też, że nie ma lepszego sposobu na utratę wiarygodności w oczach środowiska (szczególnie w środowisku badaczy) niż wyrażenie przekonania, że oprogramowanie samo dobrze wie, co robi. Kontekst wnioskowania statystycznego Statystyka dostarcza sposobu badania, jak osoby i rzeczy reagują na świat, i jako taka jest fascynująca, irytująca, a czasami kontrowersyjna. Szczególnie statystyka opisowa jest praktykowana z dużym upodobaniem przez niektóre osoby. Kibice sportowi potrafią przerzucać się średnią trafień, dorobkiem napastników oraz osiągnięciami w grze swoich ulubionych graczy. Pokrewna gałąź statystyki, wnioskowanie statystyczne, wykorzystuje nieco inne podejście, opierające się m.in. na budowie formalnych testów wykorzystujących pomiary średnich arytmetycznych, odchyleń standardowych i korelacji nie tylko do oszacowania parametrów w populacji, ale również do oceny stopnia precyzji tych szacunków. Poleć książkęKup książkę Kontekst wnioskowania statystycznego 241 Właśnie o weryfikacji hipotez myśli większość Czytelników tej książki, gdy napotyka ter- min statystyka. Jest to naturalne, skoro na początku studiów czytali o badaniach wykorzy- stujących wnioskowanie statystyczne, a później na zajęciach laboratoryjnych konstru- owali własne badania, zbierali dane i za pomocą metod wnioskowania statystycznego podsumowywali liczby, aby na ich podstawie móc wyciągnąć bardziej ogólne wnioski. Można to zrozumieć, ponieważ statystyka na studiach jest po prostu często źle wykładana. Być może Twoje doświadczenie jest inne — mam taką nadzieję — ale wiele osób nigdy nie podejmuje dodatkowej nauki statystyki po spełnieniu wymagań uczelni lub wydziału. Prze- żyłem to samo w pewnym cenionym kolegium sztuk wyzwolonych. Statystyka nie intereso- wała mnie do czasu studiów magisterskich, kiedy to rozpocząłem pobieranie nauk od osób, które rzeczywiście wiedziały, o czym mówią. Mimo tego statystyka wydaje się pełnić wiodącą rolę w badaniach doświadczalnych w kolegiach i na uniwersytetach. Jest to jednak przerost formy nad treścią. Gdy przychodzi do prowadzenia rzeczywistych badań, okazuje się, że statystyka jest najmniej ważnym na- rzędziem w dostępnej Ci palecie rozwiązań. Jestem w zasadzie pewien swoich racji. Spędziłem lata, czytając raporty z badań, w któ- rych dużo wysiłku włożono w analizę statystyczną. Podczas tych badań nie postarano się jednak zbytnio w fazie projektowania i wdrażania eksperymentu, który nadałby statystyce rzeczywisty sens. W połowie lat 60. ubiegłego wieku Donald Campbell i Julian Stanley opublikowali mono- grafię zatytułowaną Experimental and Quasi-Experimental Designs for Research („Ekspe- rymentalne i quasi-eksperymentalne projekty badań”). To opracowanie, znane szerzej pod nazwiskami autorów, opiera się na rozróżnieniu pomiędzy dwoma typami trafności: uogólnianiem, czyli zewnętrzną trafnością, i wewnętrzną trafnością. Campbell i Stanley stwierdzili, że oba typy trafności są niezbędne do tego, aby badanie eksperymentalne było przydatne. Musi być poprawne wewnętrznie, czyli zaprojektowane tak, aby jego procedury były wiarygodne. Równocześnie eksperyment musi być poprawny zewnętrznie, czyli nadawać się do uogól- nienia: obiekty badań muszą być wybrane tak, aby dało się uogólnić wyniki doświadczalne na populację, która nas interesuje. Firma farmaceutyczna mogłaby przeprowadzić badanie, które wykazałoby z całkowitą wewnętrzną trafnością, że nowy lek nie ma znaczących efektów ubocznych. Jeżeli jednak przedmiotem badań byłyby mrówki, nie zażywałbym tego leku. Zapewnienie trafności wewnętrznej Poprawny eksperyment, tzw. „złoty standard” projektu, zaczyna się od losowego wybrania obiektów z populacji, dla której chcesz przeprowadzić uogólnienia i wyciągać wnio- ski. (Jeżeli testujesz lek z myślą o populacji wszystkich ludzi, nie powinieneś ograniczać Poleć książkęKup książkę 242 Rozdział 8 Prawdomówność statystyki składu próbki jedynie do studentów). Następnie przyjmujesz α, czyli poziom błędu: ryzyko, które jesteś w stanie ponieść, wnioskując błędnie, że Twoje działanie (np. kuracja lecznicza) przyniosło efekt. UWAGA Istnieje kilka wspaniałych opracowań na temat budowania dobrych planów próbkowania. Są to m.in. Sampling Techniques („Techniki próbkowania”) Williama Cochrana (1977) i Survey Sampling („Próbkowanie badań”) Lesliego Kisha (1995). Następnym krokiem jest losowe przypisanie obiektów do jednej z dwóch lub wielu grup. W najprostszym projekcie występuje jedna grupa eksperymentalna i jedna „kontrolna” lub „porównawcza”. Traktujesz swoją grupę eksperymentalną w określony sposób i apli- kujesz odmienne traktowanie grupie porównawczej lub po prostu pozostawiasz ją samą sobie. W końcu wykonujesz pewien rodzaj pomiarów związanych z eksperymentem: je- żeli podawałeś statynę, możesz zmierzyć poziom cholesterolu badanych osób. Jeżeli poka- załeś jednej z grup podburzający blog polityczny, możesz zapytać jej członków o zdanie na temat pewnego polityka. Jeżeli zastosowałbyś różne rodzaje nawozów sztucznych do róż- nych zbiorów uprawianych drzew cytrusowych, mógłbyś zobaczyć, jak ich owoce różnią się miesiąc później. W końcu mógłbyś przepuścić wyniki pomiarów przez taką czy inną procedurę statystyczną, aby zobaczyć, czy np. dane uzyskane na drodze eksperymentu przeczą hipotezie braku efektu oddziaływania danego czynnika przy zadanym poziomie błędu (α). Głównym przesłaniem tej nieco jeszcze chaotycznej opowieści jest to, że potrzebne są dwie grupy, które są równoważne we wszystkich aspektach oprócz jednego — efektu oddziaływania na jedną z grup, którego nie doświadczyła druga grupa. Odbywający się na początku losowy przydział do grup pomaga zmniejszyć ryzyko wystąpienia systematycznej różnicy pomiędzy grupami. Takie samo traktowanie obydwu grup, z wyjątkiem wpływu badanego czynnika, pomaga wyizolować ten czynnik jako jedyne źródło zaobserwowanych różnic. Te właśnie różnice mamy zmierzyć w ramach eksperymentu. Jeżeli sposób, w jaki wyodrębniłeś obie grupy, uwiarygadnia stwierdzenie, że jedyna zna- cząca różnica pomiędzy nimi jest wywołana oddziaływaniem danego czynnika, Twój eks- peryment jest określany jako wewnętrznie trafny. Wewnętrzne porównanie pomiędzy dwiema grupami jest prawidłowe. Jeżeli obiekty badań są reprezentatywne dla populacji, na którą chcesz uogólnić swoje wnioski, eksperyment jest określany jako spełniający wymogi trafności zewnętrznej. Wtedy uogólnienie wniosków z próby losowej na populację jest uzasadnione. Poleć książkęKup książkę Kontekst wnioskowania statystycznego 243 Zagrożenia trafności wewnętrznej Oprócz błędu próbkowania Campbell i Stanley zidentyfikowali i opisali około siedmiu za- grożeń mogących podważyć wewnętrzną trafność eksperymentu. Ustanowienie przez lo- sowy dobór (i odpowiednie późniejsze zarządzanie) równoważnych grup eksperymental- nej i kontrolnej służy do eliminacji większości z tych zagrożeń. Dobór Sposoby doboru obiektów do grup eksperymentalnej i kontrolnej mogą zagrozić we- wnętrznej spójności doświadczenia, szczególnie jeżeli poszczególne obiekty współdecy- dują o swoim statusie. Załóżmy, że badacz chciałby porównać proporcje sukcesów dwóch procedur medycznych, z których każda jest prowadzona w innym szpitalu w dużym mieście. Podczas porównywania wyników tych dwóch procedur nie jest możliwe wyznaczenie, czy dowolna różnica — powiedzmy, w proporcjach przeżycia — wynika z kuracji, czy z róż- nic w populacjach, z których pochodzą pacjenci. Może to być niewykonalne, ale zwykle zaleca się przypisywanie uczestników losowo do badanych grup, co zgodnie z oczekiwa- niem ma wyrównać efekt przynależności do jednej lub drugiej populacji. Obciążenie wybo- ru w badaniach przeprowadzanych na dużą skalę może być kontrolowane dzięki zbieraniu wyników z wielu szpitali, którym losowo przydzielono stosowanie jednej lub drugiej ku- racji. (To podejście może powodować inne problemy). Historia Może wystąpić zdarzenie o dużej sile oddziaływania, które będzie mieć wpływ na reakcję obiektów na działanie eksperymentu. Załóżmy, że badasz efekt wpływu kampanii poli- tycznej na nastawienie elektoratu do osoby rządzącej. W tym samym czasie ma miejsce krach finansowy, który dotyka wszystkich, bez względu na preferencje polityczne. Od- różnienie efektu kampanii od efektu kryzysu jest teraz bardzo trudne. Jednak przy za- łożeniu, że jego wpływ na obie grupy (odbiorców kampanii oraz grupę kontrolną złożo- ną z osób, które nie miały okazji śledzić jej przebiegu) jest w przybliżeniu jednakowy, możesz przypisać zaobserwowane różnice efektowi kampanii. Bez równoważnych grup, eksperymentalnej i kontrolnej, odróżnienie efektów kampanii od wpływu czynników ze- wnętrznych byłoby niemożliwe. Inny przykład: jeżeli osoby badające wpływ kuracji medycznej są świadome, który z pa- cjentów znajduje się w której grupie, jest możliwe, że ich zachowanie może zakłócić efekty oddziaływania, gdy (zwykle niechcąco) będą sygnalizowali swoje oczekiwania względem poszczególnych grup lub też będą delikatnie wpływać na zachowanie pacjentów, tak by było ono zgodne z oczekiwanymi wynikami. Aby temu zapobiec — aby świadomość przynależności do grupy, a zatem odmiennego traktowania, nie miała wpływu na wyniki — zwykle stosuje się metodę podwójnie ślepej próby, która oznacza, że zarówno osoba nadzorująca kurację, jak i ta, której ona dotyczy, nie wiedzą, który specyfik, lek czy placebo, jest podawany danemu pacjentowi. Poleć książkęKup książkę 244 Rozdział 8 Prawdomówność statystyki Narzędzia Stosowany tutaj termin narzędzia wykracza poza urządzenia pomiarowe, takie jak suw- miarka, i obejmuje wszystkie metody, które zwracają informacje ilościowe, takie jak choćby prosty kwestionariusz. Zmiana w sposobie mierzenia wyników może spowodować duże trudności w interpretacji. Na przykład, abstrahując od pytania o same porównania między grupą badawczą i kontrolną, wielu badaczy autyzmu wierzyło, że widoczne zwiększenie częstotliwości występowania tej choroby w ostatnich kilku dekadach jest związane głównie ze zmianami w jej diagnozowaniu, które doprowadziły do znacznie częstszej wykrywalności. Testowanie Wielokrotne poddawanie obiektów z danej grupy wpływowi badanego czynnika może wpływać na uzyskiwane wyniki. Do pewnego stopnia może ono wzmocnić (lub osłabić) reakcję obiektu na dany czynnik. Na ten efekt podatni są nie tylko ludzie i inne istoty żywe. Również na przykład metale, które są obiektami wielokrotnie powtarzanych testów obciążeniowych, mogą pod ich wpływem zmienić swoje charakterystyki fizyczne. Mimo wszystko testowanie pozostaje nieodłączną częścią każdego badania ilościowego. Dojrzewanie Stopień dojrzałości różni się pomiędzy różnymi przedziałami wieku, co może zmniejszyć wiarygodność niektórych porównań. Nawet gdyby grupa eksperymentalna i kontrolna były równoważne pod względem wieku obiektów dzięki losowemu doborowi i analizie kowariancji (patrz rozdział 17., „Analiza kowariancji — podstawy”, i 18., „Analiza kowa- riancji — dalsze zagadnienia”), może się zdarzyć i tak, że zróżnicowanie obiektów, które wystąpi w trakcie badania, będzie skutkowało tym, że rozróżnienie pomiędzy efektami wynikającymi z oddziaływania badanego czynnika a skutkami tego zjawiska sta- nie się trudniejsze. Regresja Regresja w stronę średniej (patrz rozdział 4., „Jak zmienne wspólnie się zmieniają — ko- relacja”) może mieć wyraźny wpływ na wyniki eksperymentu, szczególnie gdy obiekty są wybrane z powodu ekstremalnych wartości pewnej miary związanej z tą użytą do pomiaru wyników. Będą one podążać w stronę średniej bez względu na jakikolwiek efekt oddzia- ływania. Użycie dopasowanych par, z których pojedyncze elementy zostaną przypisane do różnych grup, ma na celu większą od zwykłego losowania efektywność wyrównania dwóch grup przed poddaniem ich oddziaływaniu czynnika. Jednak często się zdarza, że efekt regresji niweczy te zamierzenia z powodu niedoskonałej korelacji wyników mierzonych w parach. Poleć książkęKup książkę Kontekst wnioskowania statystycznego 245 Śmiertelność Śmiertelność podczas eksperymentu dotyczy sytuacji, gdy obiekty z grupy eksperymen- talnej lub kontrolnej nie są w stanie dotrwać do końca swojego uczestnictwa w ekspery- mencie. (W tym kontekście „śmiertelność” nie musi oznaczać straty uczestników z powodu ich śmierci — dotyczy dowolnego efektu lub efektów, które powodują, że obiekty prze- stają uczestniczyć w eksperymencie). Chociaż losowe przypisanie na początku pomaga wy- równać grupy pod względem prawdopodobieństwa późniejszej utraty obiektów, bardzo trudno odróżnić opuszczenie próby z przyczyn leżących po stronie samego eksperymentu od opuszczenia jej z innego powodu. Ten problem jest szczególnie wyraźny w badaniach medycznych, gdzie w wielu eksperymentach biorą udział osoby, których przewidywana długość życia jest względnie krótka. Przypadek Pod koniec eksperymentu, gdy wszystko przeprowadzono zgodnie z regułami sztuki, wy- konano niezbędne badania i pomiary itp., na scenę wchodzi analiza statystyczna. Zwykle używasz jej do oceny tego, jakie jest prawdopodobieństwo, że uzyskane wyniki otrzymałeś przez czysty przypadek, tak że rezultaty podobnego badania na całej populacji byłyby inne, gdybyś tylko mógł je przeprowadzić. Jeżeli postąpisz zgodnie z tzw. „złotym standardem” losowego doboru, zrobisz wszystko, co tylko możliwe, aby ustanowić równoważne grupy — grupy, które mają następujące właściwości:  Nie są wynikiem autodoboru obiektów ani żadnego rodzaju systematycznego przypisania, które mogłoby wprowadzić wcześniej istniejące obciążenie.  Podlegają tym samym historycznym zdarzeniom podczas eksperymentu — od po- litycznych zamieszek do przypadkowego wprowadzenia kurzu do wrażliwego śro- dowiska produkcyjnego.  Są mierzone tym samym zestawem narzędzi w trakcie całego przebiegu eksperymentu.  Prowadzący test nie dają grupom odczuć różnego traktowania.  Członkowie wszystkich grup dojrzewają w równym stopniu w trakcie trwania eks- perymentu.  Obiekty testów nie zostały przypisane do grup na podstawie ekstremalnych wartości pewnych cech.  Obiekty nie opuszczały każdej z grup z różnym nasileniem. Losowy wybór i przypisanie obiektów stanowią łącznie najlepszy sposób zapewnienia, że grupy eksperymentalne posiądą wymienione cechy. Jednak i te techniki nie są dosko- nałe. Mimo wszystko może zdarzyć się i tak, że pewne czynniki zewnętrzne będą wywie- rały większy wpływ na jedną grupę niż na inną lub że dobór losowy nie wyeliminował efektu wstępnego obciążenia grup albo też że więcej niż tylko przypadek wpłynął na różną śmiertelność obiektów w poszczególnych grupach itd. Poleć książkęKup książkę 246 Rozdział 8 Prawdomówność statystyki Zatem czynniki mogące podważyć założenie o trafności wewnętrznej eksperymentu ist- nieją i chociaż będziesz robił, co tylko w Twojej mocy, by je zmniejszyć, nigdy nie możesz całkowicie wykluczyć ich wpływu jako alternatywnego wyjaśnienia obserwowanych wyników. W zależności od stopnia nasilenia tych zagrożeń analiza statystyczna może stracić swój sens. Tradycyjnie używana podczas testowania hipotez analiza statystyczna służy do okre- ślenia ilościowego roli przypadku w wyniku eksperymentu. Jednak dokładne przypisanie stopnia, w jakim przypadek odgrywa swoją rolę, zależy od obecności dwóch lub więcej grup, które są sobie równoważne z jednym jedynym wyjątkiem — aplikacji (lub jej braku) wpływu badanego czynnika. Rozważmy taką sytuację: przez jeden miesiąc podawałeś nowy lek grupie eksperymental- nej, a grupie kontrolnej w jego miejsce poddawałeś przez ten czas placebo. Lek ma na celu redukcję poziomu tzw. złego cholesterolu, czyli lipoprotein niskiej gęstości (LDL) w krwi. Na koniec miesiąca próbki krwi zostały pobrane i przeprowadziłeś analizę statystyczną wyników. Ta analiza pokazała, że prawdopodobieństwo tego, iż średni poziom LDL w grupie eksperymentalnej i kontrolnej pochodzą z tej samej populacji, wynosi ok. 1 do 1000. Wniosek, że średnie grup pochodzą z tej samej populacji, oznaczałby, iż kuracja nie do- prowadziłaby do powstania populacji, których średnie poziomy LDL różniłyby się w stop- niu usprawiedliwionym przez zażywanie leku. Jednak wynik analizy uznaje za statystycz- nie istotny wniosek, że grupy pochodzą teraz z dwóch różnych populacji. Wydaje się to wspaniałą wiadomością… jeżeli starannie porównałeś te grupy na początku i utrzymałeś ten poziom równoważności. W przeciwnym przypadku nie możesz stwierdzić, że różnica wynika ze stosowania leku. Mogłaby powstać na przykład dlatego, że członkowie grupy kontrolnej zaprzyjaźnili się i co dzień po przyjęciu swoich placebo chodzili na cheeseburgery. Możemy wyobrazić sobie łatwo sytuacje, kiedy analiza statystyczna nie zostaje poprzedzona eksperymentem w pełnym tego słowa znaczeniu. Na przykład tworzenie i analiza testów psychologicznych oraz ankiet politycznych są uzupełniane analizą regresji (która jest pod- stawą większości analiz opisanych w drugiej części tej książki). Nie muszą być one jednak w żadnym razie ograniczone do testowania możliwości poznawczych osobników czy bada- nia ich przekonań politycznych, ale mogą obejmować inne obszary — od medycyny i testo- wania leków do kontroli jakości w środowiskach produkcyjnych. Ich budowa i interpretacja zależy w dużej mierze od wybranych metod analizy statystycznej — które ta książka omawia (przy zastosowaniu Excela jako platformy obliczeniowej). Nie zmienia to jednak faktu, że nie formułują one żadnej hipotezy, która byłaby poddawana weryfikacji. Mają one bardziej za zadanie ocenę samego testu i tego
Pobierz darmowy fragment (pdf)

Gdzie kupić całą publikację:

Analiza statystyczna. Microsoft Excel 2016 PL
Autor:

Opinie na temat publikacji:


Inne popularne pozycje z tej kategorii:


Czytaj również:


Prowadzisz stronę lub blog? Wstaw link do fragmentu tej książki i współpracuj z Cyfroteką: