Bootstrap-Stichproben visualisieren

In dieser Übung erzeugst du Bootstrap-Stichproben aus den jährlichen Niederschlagsdaten der Sheffield Weather Station im Vereinigten Königreich von 1883 bis 2015. Die Daten liegen in der NumPy-Array rainfall in Millimetern (mm) vor. Durch die grafische Darstellung der Bootstrap-Stichproben mit einer ECDF bekommst du ein Gefühl dafür, wie Bootstrap-Sampling probabilistische Beschreibungen von Daten ermöglicht.

Diese Übung ist Teil des Kurses

Statistical Thinking in Python (Teil 2)

Anleitung zur Übung

Schreibe eine for-Schleife, um 50 Bootstrap-Stichproben der Niederschlagsdaten zu erzeugen und ihre ECDF zu plotten.
- Verwende np.random.choice(), um eine Bootstrap-Stichprobe aus dem NumPy-Array rainfall zu erzeugen. Achte darauf, dass die size des resampleten Arrays len(rainfall) ist.
- Verwende die Funktion ecdf(), die du im Vorgängerkurs geschrieben hast, um die x- und y-Werte für die ECDF der Bootstrap-Stichprobe bs_sample zu erzeugen.
- Plotte die ECDF-Werte. Gib zusätzlich zu den Keyword-Argumenten marker='.' und linestyle='none' auch color='gray' (für graue Punkte) und alpha=0.1 (für halbtransparente Punkte, da wir so viele überlagern) an.
Verwende ecdf(), um x- und y-Werte für die ECDF der ursprünglichen Niederschlagsdaten im Array rainfall zu erzeugen.
Plotte die ECDF-Werte der Originaldaten.
Klicke auf Antwort senden, um die Stichproben zu visualisieren!

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

for _ in range(50):
    # Generate bootstrap sample: bs_sample
    bs_sample = ____(____, size=____)

    # Compute and plot ECDF from bootstrap sample
    x, y = ____
    _ = plt.plot(____, ____, ____='.', ____='none',
                 ____='gray', ____=0.1)

# Compute and plot ECDF from original data
x, y = ____
_ = plt.plot(____, ____, ____='.')

# Make margins and label axes
plt.margins(0.02)
_ = plt.xlabel('yearly rainfall (mm)')
_ = plt.ylabel('ECDF')

# Show the plot
plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Statistical Thinking in Python (Teil 2)

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Bei statistischer Inferenz sprechen wir die Sprache der Wahrscheinlichkeit. Eine Wahrscheinlichkeitsverteilung, die deine Daten beschreibt, hat Parameter. Ein zentrales Ziel der statistischen Inferenz ist daher, die Werte dieser Parameter zu schätzen. So können wir unsere Daten präzise und eindeutig beschreiben und Schlussfolgerungen daraus ziehen. In diesem Kapitel lernst du, wie du die optimalen Parameter findest – diejenigen, die deine Daten am besten beschreiben.

Exercise 1: Optimale Parameter Exercise 2: Wie häufig gibt es No-Hitter?Exercise 3: Folgen die Daten unserer Geschichte?Exercise 4: Warum ist dieser Parameter optimal?Exercise 5: Lineare Regression mit kleinsten Quadraten Exercise 6: EDA zu Alphabetisierung und Fertilität Exercise 7: Lineare Regression Exercise 8: Wie ist es optimal?Exercise 9: Die Bedeutung von EDA: Anscombes Quartett Exercise 10: Die Bedeutung von EDA Exercise 11: Lineare Regression auf passenden Anscombe-Daten Exercise 12: Lineare Regression für alle Anscombe-Daten

Sich „an den eigenen Stiefelschlaufen hochziehen“ ist eine Redewendung dafür, eine schwierige Aufgabe ganz ohne Hilfe zu meistern. In der statistischen Inferenz möchtest du wissen, was passieren würde, wenn du die Datenerhebung unendlich oft wiederholen könntest. Das ist unmöglich – aber können wir allein mit den tatsächlich vorliegenden Daten zu einem Ergebnis gelangen, das einer unendlichen Anzahl von Experimenten nahekommt? Die Antwort lautet: Ja! Die Methode dafür heißt treffend Bootstrapping. Dieses Kapitel führt dich in dieses außergewöhnlich mächtige Werkzeug ein.

Exercise 1: Bootstrap-Replikate erzeugen Exercise 2: Die Terminologie klären Exercise 3: Bootstrapping per Hand Exercise 4: Bootstrap-Stichproben visualisieren

Aktuelle Übung

Exercise 5: Bootstrap-Konfidenzintervalle Exercise 6: Viele Bootstrap-Replikate erzeugen Exercise 7: Bootstrap-Replikate des Mittelwerts und des SEM Exercise 8: Konfidenzintervalle von Niederschlagsdaten Exercise 9: Bootstrap-Replikate anderer Statistiken Exercise 10: Konfidenzintervall für die Rate der No-Hitters Exercise 11: Pairs-Bootstrap Exercise 12: Eine Funktion für Pairs-Bootstrap Exercise 13: Pairs-Bootstrap für Alphabetisierungs-/Fruchtbarkeitsdaten Exercise 14: Bootstrap-Regressionen plotten

Du weißt nun, wie du bei gegebenem Modell Parameter definierst und schätzt. Aber es bleibt die Frage: Wie plausibel ist es, deine Daten zu beobachten, wenn das Modell wahr ist? Diese Frage beantworten Hypothesentests. Sie sind sozusagen die Krönung der Inferenz. Nach diesem Kapitel wirst du in der Lage sein, mithilfe von Hacker-Statistiken Hypothesen sorgfältig zu formulieren und zu testen.

Exercise 1: Eine Hypothese formulieren und simulieren Exercise 2: Eine Permutationsstichprobe erzeugen Exercise 3: Permutationsstichproben visualisieren Exercise 4: Teststatistiken und p-Werte Exercise 5: Teststatistiken Exercise 6: Was ist ein p-Wert?Exercise 7: Permutationsreplikate erzeugen Exercise 8: Erst schauen, dann springen: EDA vor dem Hypothesentest Exercise 9: Permutationstest mit Froschdaten Exercise 10: Bootstrap-Hypothesentests Exercise 11: Ein Bootstrap-Hypothesentest mit einer Stichprobe Exercise 12: Ein zweiseitiger Bootstrap-Hypothesentest für die Differenz der Mittelwerte

Wie du im letzten Kapitel gesehen hast, können Hypothesentests etwas knifflig sein. Du musst die Nullhypothese definieren, herausfinden, wie du sie simulierst, und klar festlegen, was „extremer“ bedeutet, um den p-Wert zu berechnen. Wie bei jeder Fähigkeit gilt: Übung macht den Meister. Dieses Kapitel bietet dir gute Praxis mit Hypothesentests.

Exercise 1: A/B-Tests Exercise 2: Die Abstimmung über den Civil Rights Act von 1964 Exercise 3: Was ist äquivalent?Exercise 4: Ein Analogon zur Verweildauer auf der Website Exercise 5: Was hättest du zuerst tun sollen?Exercise 6: Test auf Korrelation Exercise 7: Eine Nullhypothese zur Korrelation simulieren Exercise 8: Hypothesentest zur Pearson-Korrelation Exercise 9: Haben Neonicotinoid-Insektizide unbeabsichtigte Folgen?Exercise 10: Bootstrap-Hypothesentest zu Spermienzahlen bei Bienen

Seit mehr als 40 Jahren fahren Peter und Rosemary Grant jedes Jahr auf die Galápagos-Insel Daphne Major und sammeln Daten zu Darwins Finken. Mit deinen Fähigkeiten in statistischer Inferenz arbeitest du in diesem Kapitel mit ihren Daten und erlebst aus erster Hand – anhand von Daten – Evolution in Aktion. Ein mitreißender Abschluss für den Kurs!

Exercise 1: Finkenschnäbel und warum wir Statistik brauchen Exercise 2: EDA der Schnabeltiefe bei Darwins Finken Exercise 3: ECDFs der Schnabeltiefe Exercise 4: Parameterschätzungen der Schnabeltiefe Exercise 5: Hypothesentest: Sind die Schnäbel 2012 tiefer?Exercise 6: Variation in Schnabelformen Exercise 7: EDA von Schnabellänge und -tiefe Exercise 8: Lineare Regressionen Exercise 9: Lineare Regressionsresultate anzeigen Exercise 10: Verhältnis von Schnabellänge zu -tiefe Exercise 11: Wie unterschiedlich ist das Verhältnis?Exercise 12: Berechnung der Erblichkeit Exercise 13: EDA zur Heritabilität Exercise 14: Korrelation von Nachkommen- und Elterndaten Exercise 15: Pearson-Korrelation von Nachkommen- und Elterndaten Exercise 16: Erblichkeit messen Exercise 17: Ist die Schnabeltiefe bei G. scandens überhaupt erblich?Exercise 18: Abschlussgedanken