Warum ist dieser Parameter optimal?

Ziehe jetzt Stichproben aus einer Exponentialverteilung, bei der \(\tau\) doppelt so groß ist wie das optimale \(\tau\). Wiederhole das für ein \(\tau\), das halb so groß ist. Erzeuge KDFs dieser Stichproben und lege sie über deine Daten. Du wirst sehen, dass sie die Daten nicht so gut wiedergeben. Das von dir aus den mittleren Zeiten zwischen No-Hittern berechnete \(\tau\) ist daher optimal, weil es die Daten am besten reproduziert.

Hinweis: In dieser und allen folgenden Übungen ist der Zufallszahlengenerator bereits für dich vordefiniert, damit du dir Tipparbeit sparst.

Diese Übung ist Teil des Kurses

Statistical Thinking in Python (Teil 2)

Anleitung zur Übung

Ziehe 10000 Stichproben aus einer Exponentialverteilung mit dem Parameter \(\tau_{1/2}\) = tau/2.
Ziehe 10000 Stichproben aus einer Exponentialverteilung mit dem Parameter \(\tau_{2}\) = 2*tau.
Erzeuge aus diesen beiden Stichprobenmengen KDFs mit deiner Funktion ecdf().
Füge diese beiden KDFs als Linien zu deinem Plot hinzu. Das wurde bereits für dich erledigt – klicke einfach auf Antwort senden, um den Plot zu sehen!

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Plot the theoretical CDFs
plt.plot(x_theor, y_theor)
plt.plot(x, y, marker='.', linestyle='none')
plt.margins(0.02)
plt.xlabel('Games between no-hitters')
plt.ylabel('CDF')

# Take samples with half tau: samples_half
samples_half = ____

# Take samples with double tau: samples_double
samples_double = ____

# Generate CDFs from these samples
x_half, y_half = ____
x_double, y_double = ____

# Plot these CDFs as lines
_ = plt.plot(x_half, y_half)
_ = plt.plot(x_double, y_double)

# Show the plot
plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Statistical Thinking in Python (Teil 2)

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Bei statistischer Inferenz sprechen wir die Sprache der Wahrscheinlichkeit. Eine Wahrscheinlichkeitsverteilung, die deine Daten beschreibt, hat Parameter. Ein zentrales Ziel der statistischen Inferenz ist daher, die Werte dieser Parameter zu schätzen. So können wir unsere Daten präzise und eindeutig beschreiben und Schlussfolgerungen daraus ziehen. In diesem Kapitel lernst du, wie du die optimalen Parameter findest – diejenigen, die deine Daten am besten beschreiben.

Exercise 1: Optimale Parameter Exercise 2: Wie häufig gibt es No-Hitter?Exercise 3: Folgen die Daten unserer Geschichte?Exercise 4: Warum ist dieser Parameter optimal?

Aktuelle Übung

Exercise 5: Lineare Regression mit kleinsten Quadraten Exercise 6: EDA zu Alphabetisierung und Fertilität Exercise 7: Lineare Regression Exercise 8: Wie ist es optimal?Exercise 9: Die Bedeutung von EDA: Anscombes Quartett Exercise 10: Die Bedeutung von EDA Exercise 11: Lineare Regression auf passenden Anscombe-Daten Exercise 12: Lineare Regression für alle Anscombe-Daten

Sich „an den eigenen Stiefelschlaufen hochziehen“ ist eine Redewendung dafür, eine schwierige Aufgabe ganz ohne Hilfe zu meistern. In der statistischen Inferenz möchtest du wissen, was passieren würde, wenn du die Datenerhebung unendlich oft wiederholen könntest. Das ist unmöglich – aber können wir allein mit den tatsächlich vorliegenden Daten zu einem Ergebnis gelangen, das einer unendlichen Anzahl von Experimenten nahekommt? Die Antwort lautet: Ja! Die Methode dafür heißt treffend Bootstrapping. Dieses Kapitel führt dich in dieses außergewöhnlich mächtige Werkzeug ein.

Exercise 1: Bootstrap-Replikate erzeugen Exercise 2: Die Terminologie klären Exercise 3: Bootstrapping per Hand Exercise 4: Bootstrap-Stichproben visualisieren Exercise 5: Bootstrap-Konfidenzintervalle Exercise 6: Viele Bootstrap-Replikate erzeugen Exercise 7: Bootstrap-Replikate des Mittelwerts und des SEM Exercise 8: Konfidenzintervalle von Niederschlagsdaten Exercise 9: Bootstrap-Replikate anderer Statistiken Exercise 10: Konfidenzintervall für die Rate der No-Hitters Exercise 11: Pairs-Bootstrap Exercise 12: Eine Funktion für Pairs-Bootstrap Exercise 13: Pairs-Bootstrap für Alphabetisierungs-/Fruchtbarkeitsdaten Exercise 14: Bootstrap-Regressionen plotten

Du weißt nun, wie du bei gegebenem Modell Parameter definierst und schätzt. Aber es bleibt die Frage: Wie plausibel ist es, deine Daten zu beobachten, wenn das Modell wahr ist? Diese Frage beantworten Hypothesentests. Sie sind sozusagen die Krönung der Inferenz. Nach diesem Kapitel wirst du in der Lage sein, mithilfe von Hacker-Statistiken Hypothesen sorgfältig zu formulieren und zu testen.

Exercise 1: Eine Hypothese formulieren und simulieren Exercise 2: Eine Permutationsstichprobe erzeugen Exercise 3: Permutationsstichproben visualisieren Exercise 4: Teststatistiken und p-Werte Exercise 5: Teststatistiken Exercise 6: Was ist ein p-Wert?Exercise 7: Permutationsreplikate erzeugen Exercise 8: Erst schauen, dann springen: EDA vor dem Hypothesentest Exercise 9: Permutationstest mit Froschdaten Exercise 10: Bootstrap-Hypothesentests Exercise 11: Ein Bootstrap-Hypothesentest mit einer Stichprobe Exercise 12: Ein zweiseitiger Bootstrap-Hypothesentest für die Differenz der Mittelwerte

Wie du im letzten Kapitel gesehen hast, können Hypothesentests etwas knifflig sein. Du musst die Nullhypothese definieren, herausfinden, wie du sie simulierst, und klar festlegen, was „extremer“ bedeutet, um den p-Wert zu berechnen. Wie bei jeder Fähigkeit gilt: Übung macht den Meister. Dieses Kapitel bietet dir gute Praxis mit Hypothesentests.

Exercise 1: A/B-Tests Exercise 2: Die Abstimmung über den Civil Rights Act von 1964 Exercise 3: Was ist äquivalent?Exercise 4: Ein Analogon zur Verweildauer auf der Website Exercise 5: Was hättest du zuerst tun sollen?Exercise 6: Test auf Korrelation Exercise 7: Eine Nullhypothese zur Korrelation simulieren Exercise 8: Hypothesentest zur Pearson-Korrelation Exercise 9: Haben Neonicotinoid-Insektizide unbeabsichtigte Folgen?Exercise 10: Bootstrap-Hypothesentest zu Spermienzahlen bei Bienen

Seit mehr als 40 Jahren fahren Peter und Rosemary Grant jedes Jahr auf die Galápagos-Insel Daphne Major und sammeln Daten zu Darwins Finken. Mit deinen Fähigkeiten in statistischer Inferenz arbeitest du in diesem Kapitel mit ihren Daten und erlebst aus erster Hand – anhand von Daten – Evolution in Aktion. Ein mitreißender Abschluss für den Kurs!

Exercise 1: Finkenschnäbel und warum wir Statistik brauchen Exercise 2: EDA der Schnabeltiefe bei Darwins Finken Exercise 3: ECDFs der Schnabeltiefe Exercise 4: Parameterschätzungen der Schnabeltiefe Exercise 5: Hypothesentest: Sind die Schnäbel 2012 tiefer?Exercise 6: Variation in Schnabelformen Exercise 7: EDA von Schnabellänge und -tiefe Exercise 8: Lineare Regressionen Exercise 9: Lineare Regressionsresultate anzeigen Exercise 10: Verhältnis von Schnabellänge zu -tiefe Exercise 11: Wie unterschiedlich ist das Verhältnis?Exercise 12: Berechnung der Erblichkeit Exercise 13: EDA zur Heritabilität Exercise 14: Korrelation von Nachkommen- und Elterndaten Exercise 15: Pearson-Korrelation von Nachkommen- und Elterndaten Exercise 16: Erblichkeit messen Exercise 17: Ist die Schnabeltiefe bei G. scandens überhaupt erblich?Exercise 18: Abschlussgedanken