Bootstrap-Hypothesentest zu Spermienzahlen bei Bienen

Jetzt testest du folgende Hypothese: Im Mittel haben männliche Bienen, die mit Neonicotinoid-Insektiziden behandelt wurden, die gleiche Anzahl lebender Spermien pro Milliliter Sperma wie unbehandelte männliche Bienen. Du verwendest die Differenz der Mittelwerte als Teststatistik.

Zur Erinnerung: Die Funktionssignatur für draw_bs_reps() die du in Kapitel 2 geschrieben hast lautet draw_bs_reps(data, func, size=1).

Diese Übung ist Teil des Kurses

Statistical Thinking in Python (Teil 2)

Anleitung zur Übung

Berechne den Mittelwert der lebenden Spermien von control minus den von treated.
Berechne den Mittelwert aller lebenden Spermien. Füge dazu zuerst control und treated zusammen und nimm den Mittelwert des zusammengefügten Arrays.
Erzeuge verschobene Datensätze für control und treated, sodass beide verschobenen Datensätze den gleichen Mittelwert haben. Das wurde bereits für dich erledigt.
Erzeuge 10.000 Bootstrap-Replikate des Mittelwerts für jedes der beiden verschobenen Arrays. Verwende dazu deine Funktion draw_bs_reps().
Berechne die Bootstrap-Replikate der Differenz der Mittelwerte.
Der Code zur Berechnung und Ausgabe des p-Werts wurde für dich geschrieben. Klicke auf Antwort senden, um das Ergebnis zu sehen!

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Compute the difference in mean sperm count: diff_means
diff_means = ____

# Compute mean of pooled data: mean_count
mean_count = ____

# Generate shifted data sets
control_shifted = control - np.mean(control) + mean_count
treated_shifted = treated - np.mean(treated) + mean_count

# Generate bootstrap replicates
bs_reps_control = ____(____,
                       np.mean, size=10000)
bs_reps_treated = ____(____,
                       np.mean, size=10000)

# Get replicates of difference of means: bs_replicates
bs_replicates = ____

# Compute and print p-value: p
p = np.sum(bs_replicates >= np.mean(control) - np.mean(treated)) \
            / len(bs_replicates)
print('p-value =', p)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Statistical Thinking in Python (Teil 2)

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Bei statistischer Inferenz sprechen wir die Sprache der Wahrscheinlichkeit. Eine Wahrscheinlichkeitsverteilung, die deine Daten beschreibt, hat Parameter. Ein zentrales Ziel der statistischen Inferenz ist daher, die Werte dieser Parameter zu schätzen. So können wir unsere Daten präzise und eindeutig beschreiben und Schlussfolgerungen daraus ziehen. In diesem Kapitel lernst du, wie du die optimalen Parameter findest – diejenigen, die deine Daten am besten beschreiben.

Exercise 1: Optimale Parameter Exercise 2: Wie häufig gibt es No-Hitter?Exercise 3: Folgen die Daten unserer Geschichte?Exercise 4: Warum ist dieser Parameter optimal?Exercise 5: Lineare Regression mit kleinsten Quadraten Exercise 6: EDA zu Alphabetisierung und Fertilität Exercise 7: Lineare Regression Exercise 8: Wie ist es optimal?Exercise 9: Die Bedeutung von EDA: Anscombes Quartett Exercise 10: Die Bedeutung von EDA Exercise 11: Lineare Regression auf passenden Anscombe-Daten Exercise 12: Lineare Regression für alle Anscombe-Daten

Sich „an den eigenen Stiefelschlaufen hochziehen“ ist eine Redewendung dafür, eine schwierige Aufgabe ganz ohne Hilfe zu meistern. In der statistischen Inferenz möchtest du wissen, was passieren würde, wenn du die Datenerhebung unendlich oft wiederholen könntest. Das ist unmöglich – aber können wir allein mit den tatsächlich vorliegenden Daten zu einem Ergebnis gelangen, das einer unendlichen Anzahl von Experimenten nahekommt? Die Antwort lautet: Ja! Die Methode dafür heißt treffend Bootstrapping. Dieses Kapitel führt dich in dieses außergewöhnlich mächtige Werkzeug ein.

Exercise 1: Bootstrap-Replikate erzeugen Exercise 2: Die Terminologie klären Exercise 3: Bootstrapping per Hand Exercise 4: Bootstrap-Stichproben visualisieren Exercise 5: Bootstrap-Konfidenzintervalle Exercise 6: Viele Bootstrap-Replikate erzeugen Exercise 7: Bootstrap-Replikate des Mittelwerts und des SEM Exercise 8: Konfidenzintervalle von Niederschlagsdaten Exercise 9: Bootstrap-Replikate anderer Statistiken Exercise 10: Konfidenzintervall für die Rate der No-Hitters Exercise 11: Pairs-Bootstrap Exercise 12: Eine Funktion für Pairs-Bootstrap Exercise 13: Pairs-Bootstrap für Alphabetisierungs-/Fruchtbarkeitsdaten Exercise 14: Bootstrap-Regressionen plotten

Du weißt nun, wie du bei gegebenem Modell Parameter definierst und schätzt. Aber es bleibt die Frage: Wie plausibel ist es, deine Daten zu beobachten, wenn das Modell wahr ist? Diese Frage beantworten Hypothesentests. Sie sind sozusagen die Krönung der Inferenz. Nach diesem Kapitel wirst du in der Lage sein, mithilfe von Hacker-Statistiken Hypothesen sorgfältig zu formulieren und zu testen.

Exercise 1: Eine Hypothese formulieren und simulieren Exercise 2: Eine Permutationsstichprobe erzeugen Exercise 3: Permutationsstichproben visualisieren Exercise 4: Teststatistiken und p-Werte Exercise 5: Teststatistiken Exercise 6: Was ist ein p-Wert?Exercise 7: Permutationsreplikate erzeugen Exercise 8: Erst schauen, dann springen: EDA vor dem Hypothesentest Exercise 9: Permutationstest mit Froschdaten Exercise 10: Bootstrap-Hypothesentests Exercise 11: Ein Bootstrap-Hypothesentest mit einer Stichprobe Exercise 12: Ein zweiseitiger Bootstrap-Hypothesentest für die Differenz der Mittelwerte

Wie du im letzten Kapitel gesehen hast, können Hypothesentests etwas knifflig sein. Du musst die Nullhypothese definieren, herausfinden, wie du sie simulierst, und klar festlegen, was „extremer“ bedeutet, um den p-Wert zu berechnen. Wie bei jeder Fähigkeit gilt: Übung macht den Meister. Dieses Kapitel bietet dir gute Praxis mit Hypothesentests.

Exercise 1: A/B-Tests Exercise 2: Die Abstimmung über den Civil Rights Act von 1964 Exercise 3: Was ist äquivalent?Exercise 4: Ein Analogon zur Verweildauer auf der Website Exercise 5: Was hättest du zuerst tun sollen?Exercise 6: Test auf Korrelation Exercise 7: Eine Nullhypothese zur Korrelation simulieren Exercise 8: Hypothesentest zur Pearson-Korrelation Exercise 9: Haben Neonicotinoid-Insektizide unbeabsichtigte Folgen?Exercise 10: Bootstrap-Hypothesentest zu Spermienzahlen bei Bienen

Aktuelle Übung

Seit mehr als 40 Jahren fahren Peter und Rosemary Grant jedes Jahr auf die Galápagos-Insel Daphne Major und sammeln Daten zu Darwins Finken. Mit deinen Fähigkeiten in statistischer Inferenz arbeitest du in diesem Kapitel mit ihren Daten und erlebst aus erster Hand – anhand von Daten – Evolution in Aktion. Ein mitreißender Abschluss für den Kurs!

Exercise 1: Finkenschnäbel und warum wir Statistik brauchen Exercise 2: EDA der Schnabeltiefe bei Darwins Finken Exercise 3: ECDFs der Schnabeltiefe Exercise 4: Parameterschätzungen der Schnabeltiefe Exercise 5: Hypothesentest: Sind die Schnäbel 2012 tiefer?Exercise 6: Variation in Schnabelformen Exercise 7: EDA von Schnabellänge und -tiefe Exercise 8: Lineare Regressionen Exercise 9: Lineare Regressionsresultate anzeigen Exercise 10: Verhältnis von Schnabellänge zu -tiefe Exercise 11: Wie unterschiedlich ist das Verhältnis?Exercise 12: Berechnung der Erblichkeit Exercise 13: EDA zur Heritabilität Exercise 14: Korrelation von Nachkommen- und Elterndaten Exercise 15: Pearson-Korrelation von Nachkommen- und Elterndaten Exercise 16: Erblichkeit messen Exercise 17: Ist die Schnabeltiefe bei G. scandens überhaupt erblich?Exercise 18: Abschlussgedanken