1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Podstawy wnioskowania statystycznego w Pythonie

Connected

Exercise

Problem wielokrotnych porównań

Problem wielokrotnych porównań pojawia się, gdy badacz wielokrotnie sprawdza różne zmienne lub próbki pod kątem istotności statystycznej. Czysto przypadkowo możemy od czasu do czasu natrafić na wynik uznawany za statystycznie istotny.

W tym ćwiczeniu będziesz pracować z danymi dotyczącymi wynagrodzeń pracowników Urzędu Miasta Austin w Teksasie. Porównasz te wynagrodzenia z losowo wygenerowanymi danymi i zobaczysz, jak często takie losowe dane okazują się „istotne" w wyjaśnianiu zarobków pracowników. Oczywiście każda taka „istotność" byłaby pozorna – liczby losowe raczej niczego nie wyjaśniają!

Ramka danych z wynagrodzeniami funkcjonariuszy policji (police_salaries_df) jest już wczytana, podobnie jak pakiety: pandas jako pd, NumPy jako np, Matplotlib jako plt oraz stats z SciPy.

Instrukcje

100 XP
  • Zapisz liczbę osób w zbiorze danych w zmiennej n_rows (każdy wiersz to jedna osoba) i zainicjuj liczbę istotnych wyników, n_significant, wartością zero.
  • Napisz pętlę for, która wykona się 1000 razy i za każdym razem wygeneruje n_rows liczb losowych.
  • Oblicz współczynnik R Pearsona oraz odpowiadającą mu p-wartość między wygenerowanymi liczbami a wynagrodzeniami funkcjonariuszy policji.
  • Jeśli p-wartość jest istotna na poziomie 5%, dodaj jeden do n_significant za pomocą operatora +=.