Hypothesentest: Kann das Zufall sein?

Die EDA und die lineare Regressionsanalyse sind ziemlich eindeutig. Trotzdem rundest du die Analyse des Zickzack-Effekts ab, indem du die Hypothese testest, dass die Bahnzuweisung nichts mit dem mittleren relativen Unterschied zwischen geraden und ungeraden Bahnen zu tun hat – mithilfe eines Permutationstests. Du verwendest den Pearson-Korrelationskoeffizienten als Teststatistik, den du mit dcst.pearson_r() berechnen kannst. Die Variablen lanes und f_13 sind bereits in deinem Namespace.

Diese Übung ist Teil des Kurses

Fallstudien zum statistischen Denken

Anleitung zur Übung

Berechne den beobachteten Pearson-Korrelationskoeffizienten und speichere ihn als rho.
Initialisiere ein Array, um die 10.000 Permutations-Replikate von rho mit np.empty() zu speichern. Nenne das Array perm_reps_rho.
Schreibe eine for-Schleife, um die Permutations-Replikate zu ziehen.
- Mische das Array lanes mit np.random.permutation().
- Berechne den Pearson-Korrelationskoeffizienten zwischen dem gemischten lanes-Array und f_13. Speichere das Ergebnis in perm_reps_rho.
Berechne und gib den p-Wert aus. Interpretiere "mindestens so extrem wie" so, dass der Pearson-Korrelationskoeffizient größer oder gleich dem beobachteten Wert ist.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Compute observed correlation: rho
rho = ____

# Initialize permutation reps: perm_reps_rho
perm_reps_rho = ____

# Make permutation reps
for i in range(10000):
    # Scramble the lanes array: scrambled_lanes
    scrambled_lanes = ____
    
    # Compute the Pearson correlation coefficient
    ____[i] = ____
    
# Compute and print p-value
p_val = ____(____ >= ____) / 10000
print('p =', p_val)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Fallstudien zum statistischen Denken

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Zum Einstieg nutzt du zwei Datensätze von Caltech-Forschenden, um die Kernpunkte aus Statistical Thinking I und II aufzufrischen – als Vorbereitung auf die folgenden Fallstudien!

Exercise 1: Aktivität von Zebrafischen und Melatonin Exercise 2: EDA: ECDFs der aktiven Bout-Länge plotten Exercise 3: ECDFs und die Geschichte dahinter interpretieren Exercise 4: Bootstrap-Konfidenzintervalle Exercise 5: Parameterschätzung: Länge aktiver Phasen Exercise 6: Permutations- und Bootstrap-Hypothesentests Exercise 7: Permutationstest: Wildtyp versus Heterozygot Exercise 8: Bootstrap-Hypothesentest Exercise 9: Lineare Regressionen und Paar-Bootstrap Exercise 10: Bestimmung der Wachstumsrate Exercise 11: Die Wachstumskurve plotten

In diesem Kapitel übst du EDA, Parameterschätzung und Hypothesentests anhand der Ergebnisse der FINA-Schwimm-Weltmeisterschaften 2015.

Exercise 1: Einführung in die Schwimm-Daten Exercise 2: Grafische EDA der Vorläufe über 200 m Freistil (Männer)Exercise 3: 200 m Freistil mit Konfidenzintervall Exercise 4: Schwimmen Athletinnen und Athleten im Finale schneller?Exercise 5: EDA: Finale versus Halbfinale Exercise 6: Parameterschätzungen der Differenz zwischen Finale und Halbfinale Exercise 7: So führst du den Permutationstest durch Exercise 8: Permutation Samples erzeugen Exercise 9: Hypothesentest: Schwimmen Frauen im Halbfinale und Finale gleich?Exercise 10: Wie lässt die Leistung von Schwimmer:innen bei langen Wettkämpfen nach?Exercise 11: EDA: Plotte alle deine Daten Exercise 12: Lineare Regression der durchschnittlichen Splitzeit Exercise 13: Hypothesentest: Werden sie langsamer?

Einige Schwimmerinnen und Schwimmer sagten, dass es sich bei den Weltmeisterschaften 2013 leichter anfühlte, in die eine Richtung zu schwimmen als in die andere. Manche Analysten vermuteten eine wirbelnde Strömung im Becken. In diesem Kapitel gehst du dieser Behauptung nach! Quellen – <a href="https://qz.com/761280/researchers-believe-certain-lanes-in-the-olympic-pool-may-have-given-some-swimmers-an-advantage/" target="_blank">Quartz Media</a>, <a href="https://www.washingtonpost.com/news/wonk/wp/2016/09/01/these-charts-clearly-show-how-some-olympic-swimmers-may-have-gotten-an-unfair-advantage/?utm_term=.dba907006ba1" target="_blank">Washington Post</a>, <a href="https://swimswam.com/rio-olympic-test-event-showed-same-pool-bias-2-0/" target="_blank">SwimSwam</a> (und auch <a href="https://swimswam.com/problem-rio-pool/" target="_blank">hier)</a> sowie <a href="https://www.ncbi.nlm.nih.gov/pubmed/25003776" target="_blank">Cornett et al.</a>

Exercise 1: Einführung in die aktuelle Kontroverse Exercise 2: Ein Kennwert für Verbesserungen Exercise 3: ECDF der Verbesserung von niedrigen zu hohen Bahnen Exercise 4: Schätzung der mittleren Verbesserung Exercise 5: Wie sollten wir die Hypothese testen?Exercise 6: Hypothesentest: Beeinflusst die Bahnzuweisung die Leistung?Exercise 7: Gab es dieses Problem auch 2015?Exercise 8: Der Zickzack-Effekt Exercise 9: Welche Splits sollten wir berücksichtigen?Exercise 10: EDA: mittlere Unterschiede zwischen ungeraden und geraden Splits Exercise 11: Wie hängt der Strömungseffekt von der Bahnposition ab?Exercise 12: Hypothesentest: Kann das Zufall sein?

Aktuelle Übung

Exercise 13: Rückblick auf die Schwimm-Analyse

Hier setzt du deine Fähigkeiten im statistischen Denken ein, um Häufigkeit und Magnituden von Erdbeben zu untersuchen. Dabei lernst du grundlegende statistische Seismologie, einschließlich des Gutenberg-Richter-Gesetzes. Diese Übung macht zwei zentrale Ideen der Datenwissenschaft deutlich: 1) Als Data Scientist stößt du auf die unterschiedlichsten fachlichen Analysen – das ist spannend, denn du lernst ständig dazu. 2) Du hast manchmal nur begrenzte Daten, wie auch bei vielen dieser Erdbebenstudien. Dennoch kannst du gute Fortschritte machen!

Exercise 1: Einführung in die statistische Seismologie und das Parkfield-Experiment Exercise 2: Magnituden der Erdbeben in Parkfield Exercise 3: Den b-Wert berechnen Exercise 4: Der b-Wert für Parkfield Exercise 5: Zeitliche Abfolge großer Erdbeben und die Parkfield-Sequenz Exercise 6: Schätzungen der Zwischenbebenzeiten für Parkfield Exercise 7: Wann kommt das nächste große Parkfield-Beben?Exercise 8: Wie sind die Parkfield-Intervalle zwischen Erdbeben verteilt?Exercise 9: Den Wert einer formalen ECDF berechnen Exercise 10: K-S-Statistik berechnen Exercise 11: K-S-Replikate ziehen Exercise 12: Der K-S-Test auf Exponentialverteilung

Erdbeben haben natürlich große gesellschaftliche Auswirkungen und stehen in jüngerer Zeit mit menschlichen Aktivitäten in Verbindung. In diesem letzten Kapitel untersuchst du, welchen Einfluss die verstärkte Einpressung von salzhaltigem Abwasser infolge der Ölförderung in Oklahoma auf die Seismizität der Region hatte.

Exercise 1: Schwankungen in Erdbebenhäufigkeit und Seismizität Exercise 2: EDA: Erdbeben im Zeitverlauf plotten Exercise 3: Schätzungen der mittleren Zeiten zwischen Erdbeben Exercise 4: Hypothesentest: Hat sich die Erdbebenhäufigkeit verändert?Exercise 5: Wie du deine Analyse präsentierst Exercise 6: Erdbebenstärken in Oklahoma Exercise 7: EDA: Magnituden vor und nach 2010 vergleichen Exercise 8: Quantifizierung der b‑Werte Exercise 9: Wie sollten wir einen Hypothesentest zu Unterschieden im b-Wert durchführen?Exercise 10: Hypothesentest: Sind die b-Werte unterschiedlich?Exercise 11: Was kannst du aus dieser Analyse schließen?Exercise 12: Abschließende Bemerkungen