Teststatistiken visualisieren
In dieser Übung näherst du dich der Nullhypothese, indem du die Verteilung einer Teststatistik vergleichst, die auf zwei unterschiedliche Arten erzeugt wird.
Zuerst betrachtest du zwei „Grundgesamtheiten“, gruppiert nach frühen und späten Zeiten, und berechnest die Verteilung der Teststatistik. Danach mischst du die beiden Grundgesamtheiten, sodass die Daten nicht mehr zeitlich geordnet sind und jede eine Mischung aus frühen und späten Zeiten enthält, und berechnest anschließend die Verteilung der Teststatistik erneut.
Zum Start haben wir zwei Zeitdauern-Gruppen, group_duration_short und group_duration_long, sowie zwei Funktionen, shuffle_and_split() und plot_test_statistic(), für dich vorab geladen.
Diese Übung ist Teil des Kurses
Einführung in lineares Modellieren mit Python
Anleitung zur Übung
- Verwende
np.random.choice(), umgroup_duration_shortundgroup_duration_longzu resamplen, und bilde die Differenz der Resamples, umtest_statistic_unshuffledzu berechnen. - Wende
shuffle_and_split()auf die ursprünglichengroup_duration_shortundgroup_duration_longan (in genau dieser Reihenfolge), um zwei neue gemischte Grundgesamtheiten zu erzeugen. - Resample die gemischten Grundgesamtheiten und ziehe
resample_shortvonresample_longab, um eine neuetest_statistic_shuffledzu berechnen. - Verwende
plot_test_statistic(), um beide Verteilungen der Teststatistik zu plotten und visuell zu vergleichen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# From the unshuffled groups, compute the test statistic distribution
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)
test_statistic_unshuffled = ____ - ____
# Shuffle two populations, cut in half, and recompute the test statistic
shuffled_half1, shuffled_half2 = shuffle_and_split(____, ____)
resample_half1 = np.random.choice(____, size=500, replace=____)
resample_half2 = np.random.choice(____, size=500, replace=____)
test_statistic_shuffled = resample_half2 - resample_half1
# Plot both the unshuffled and shuffled results and compare
fig = plot_test_statistic(____, label='Unshuffled')
fig = plot_test_statistic(____, label='Shuffled')