Hypothesentest: Werden sie langsamer?

Jetzt testen wir die Nullhypothese, dass die Split-Zeit der Schwimmer überhaupt nicht mit der im Rennen zurückgelegten Distanz korreliert. Wir verwenden den Pearson-Korrelationskoeffizienten (berechnet mit dcst.pearson_r()) als Teststatistik.

Diese Übung ist Teil des Kurses

Fallstudien zum statistischen Denken

Anleitung zur Übung

Berechne die beobachtete Pearson-Korrelation und speichere sie als rho.
Initialisiere mit np.empty() ein Array mit 10.000 Permutationsreplikaten der Pearson-Korrelation und nenne es perm_reps_rho.
Schreibe eine for-Schleife, die Folgendes tut:
- Mische das Array der Split-Nummern mit np.random.permutation() und nenne es scrambled_split_number.
- Berechne den Pearson-Korrelationskoeffizienten zwischen dem gemischten Split-Nummern-Array und den mittleren Split-Zeiten und speichere ihn in perm_reps_rho.
Berechne den p-Wert und gib ihn auf dem Bildschirm aus. Interpretiere „mindestens so extrem wie“ so, dass die Pearson-Korrelation mindestens so groß ist wie die beobachtete.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Observed correlation
rho = ____

# Initialize permutation reps
perm_reps_rho = ____

# Make permutation reps
for i in range(10000):
    # Scramble the split number array
    scrambled_split_number = ____
    
    # Compute the Pearson correlation coefficient
    ____[i] = ____
    
# Compute and print p-value
p_val = ____(____ >= ____) / ____
print('p =', p_val)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Fallstudien zum statistischen Denken

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Zum Einstieg nutzt du zwei Datensätze von Caltech-Forschenden, um die Kernpunkte aus Statistical Thinking I und II aufzufrischen – als Vorbereitung auf die folgenden Fallstudien!

Exercise 1: Aktivität von Zebrafischen und Melatonin Exercise 2: EDA: ECDFs der aktiven Bout-Länge plotten Exercise 3: ECDFs und die Geschichte dahinter interpretieren Exercise 4: Bootstrap-Konfidenzintervalle Exercise 5: Parameterschätzung: Länge aktiver Phasen Exercise 6: Permutations- und Bootstrap-Hypothesentests Exercise 7: Permutationstest: Wildtyp versus Heterozygot Exercise 8: Bootstrap-Hypothesentest Exercise 9: Lineare Regressionen und Paar-Bootstrap Exercise 10: Bestimmung der Wachstumsrate Exercise 11: Die Wachstumskurve plotten

In diesem Kapitel übst du EDA, Parameterschätzung und Hypothesentests anhand der Ergebnisse der FINA-Schwimm-Weltmeisterschaften 2015.

Exercise 1: Einführung in die Schwimm-Daten Exercise 2: Grafische EDA der Vorläufe über 200 m Freistil (Männer)Exercise 3: 200 m Freistil mit Konfidenzintervall Exercise 4: Schwimmen Athletinnen und Athleten im Finale schneller?Exercise 5: EDA: Finale versus Halbfinale Exercise 6: Parameterschätzungen der Differenz zwischen Finale und Halbfinale Exercise 7: So führst du den Permutationstest durch Exercise 8: Permutation Samples erzeugen Exercise 9: Hypothesentest: Schwimmen Frauen im Halbfinale und Finale gleich?Exercise 10: Wie lässt die Leistung von Schwimmer:innen bei langen Wettkämpfen nach?Exercise 11: EDA: Plotte alle deine Daten Exercise 12: Lineare Regression der durchschnittlichen Splitzeit Exercise 13: Hypothesentest: Werden sie langsamer?

Aktuelle Übung

Einige Schwimmerinnen und Schwimmer sagten, dass es sich bei den Weltmeisterschaften 2013 leichter anfühlte, in die eine Richtung zu schwimmen als in die andere. Manche Analysten vermuteten eine wirbelnde Strömung im Becken. In diesem Kapitel gehst du dieser Behauptung nach! Quellen – <a href="https://qz.com/761280/researchers-believe-certain-lanes-in-the-olympic-pool-may-have-given-some-swimmers-an-advantage/" target="_blank">Quartz Media</a>, <a href="https://www.washingtonpost.com/news/wonk/wp/2016/09/01/these-charts-clearly-show-how-some-olympic-swimmers-may-have-gotten-an-unfair-advantage/?utm_term=.dba907006ba1" target="_blank">Washington Post</a>, <a href="https://swimswam.com/rio-olympic-test-event-showed-same-pool-bias-2-0/" target="_blank">SwimSwam</a> (und auch <a href="https://swimswam.com/problem-rio-pool/" target="_blank">hier)</a> sowie <a href="https://www.ncbi.nlm.nih.gov/pubmed/25003776" target="_blank">Cornett et al.</a>

Exercise 1: Einführung in die aktuelle Kontroverse Exercise 2: Ein Kennwert für Verbesserungen Exercise 3: ECDF der Verbesserung von niedrigen zu hohen Bahnen Exercise 4: Schätzung der mittleren Verbesserung Exercise 5: Wie sollten wir die Hypothese testen?Exercise 6: Hypothesentest: Beeinflusst die Bahnzuweisung die Leistung?Exercise 7: Gab es dieses Problem auch 2015?Exercise 8: Der Zickzack-Effekt Exercise 9: Welche Splits sollten wir berücksichtigen?Exercise 10: EDA: mittlere Unterschiede zwischen ungeraden und geraden Splits Exercise 11: Wie hängt der Strömungseffekt von der Bahnposition ab?Exercise 12: Hypothesentest: Kann das Zufall sein?Exercise 13: Rückblick auf die Schwimm-Analyse

Hier setzt du deine Fähigkeiten im statistischen Denken ein, um Häufigkeit und Magnituden von Erdbeben zu untersuchen. Dabei lernst du grundlegende statistische Seismologie, einschließlich des Gutenberg-Richter-Gesetzes. Diese Übung macht zwei zentrale Ideen der Datenwissenschaft deutlich: 1) Als Data Scientist stößt du auf die unterschiedlichsten fachlichen Analysen – das ist spannend, denn du lernst ständig dazu. 2) Du hast manchmal nur begrenzte Daten, wie auch bei vielen dieser Erdbebenstudien. Dennoch kannst du gute Fortschritte machen!

Exercise 1: Einführung in die statistische Seismologie und das Parkfield-Experiment Exercise 2: Magnituden der Erdbeben in Parkfield Exercise 3: Den b-Wert berechnen Exercise 4: Der b-Wert für Parkfield Exercise 5: Zeitliche Abfolge großer Erdbeben und die Parkfield-Sequenz Exercise 6: Schätzungen der Zwischenbebenzeiten für Parkfield Exercise 7: Wann kommt das nächste große Parkfield-Beben?Exercise 8: Wie sind die Parkfield-Intervalle zwischen Erdbeben verteilt?Exercise 9: Den Wert einer formalen ECDF berechnen Exercise 10: K-S-Statistik berechnen Exercise 11: K-S-Replikate ziehen Exercise 12: Der K-S-Test auf Exponentialverteilung

Erdbeben haben natürlich große gesellschaftliche Auswirkungen und stehen in jüngerer Zeit mit menschlichen Aktivitäten in Verbindung. In diesem letzten Kapitel untersuchst du, welchen Einfluss die verstärkte Einpressung von salzhaltigem Abwasser infolge der Ölförderung in Oklahoma auf die Seismizität der Region hatte.

Exercise 1: Schwankungen in Erdbebenhäufigkeit und Seismizität Exercise 2: EDA: Erdbeben im Zeitverlauf plotten Exercise 3: Schätzungen der mittleren Zeiten zwischen Erdbeben Exercise 4: Hypothesentest: Hat sich die Erdbebenhäufigkeit verändert?Exercise 5: Wie du deine Analyse präsentierst Exercise 6: Erdbebenstärken in Oklahoma Exercise 7: EDA: Magnituden vor und nach 2010 vergleichen Exercise 8: Quantifizierung der b‑Werte Exercise 9: Wie sollten wir einen Hypothesentest zu Unterschieden im b-Wert durchführen?Exercise 10: Hypothesentest: Sind die b-Werte unterschiedlich?Exercise 11: Was kannst du aus dieser Analyse schließen?Exercise 12: Abschließende Bemerkungen