LoslegenKostenlos loslegen

Teststatistiken visualisieren

In dieser Übung näherst du dich der Nullhypothese, indem du die Verteilung einer Teststatistik vergleichst, die auf zwei unterschiedliche Arten erzeugt wird.

Zuerst betrachtest du zwei „Grundgesamtheiten“, gruppiert nach frühen und späten Zeiten, und berechnest die Verteilung der Teststatistik. Danach mischst du die beiden Grundgesamtheiten, sodass die Daten nicht mehr zeitlich geordnet sind und jede eine Mischung aus frühen und späten Zeiten enthält, und berechnest anschließend die Verteilung der Teststatistik erneut.

Zum Start haben wir zwei Zeitdauern-Gruppen, group_duration_short und group_duration_long, sowie zwei Funktionen, shuffle_and_split() und plot_test_statistic(), für dich vorab geladen.

Diese Übung ist Teil des Kurses

Einführung in lineares Modellieren mit Python

Kurs anzeigen

Anleitung zur Übung

  • Verwende np.random.choice(), um group_duration_short und group_duration_long zu resamplen, und bilde die Differenz der Resamples, um test_statistic_unshuffled zu berechnen.
  • Wende shuffle_and_split() auf die ursprünglichen group_duration_short und group_duration_long an (in genau dieser Reihenfolge), um zwei neue gemischte Grundgesamtheiten zu erzeugen.
  • Resample die gemischten Grundgesamtheiten und ziehe resample_short von resample_long ab, um eine neue test_statistic_shuffled zu berechnen.
  • Verwende plot_test_statistic(), um beide Verteilungen der Teststatistik zu plotten und visuell zu vergleichen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# From the unshuffled groups, compute the test statistic distribution
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)
test_statistic_unshuffled = ____ - ____

# Shuffle two populations, cut in half, and recompute the test statistic
shuffled_half1, shuffled_half2 = shuffle_and_split(____, ____)
resample_half1 = np.random.choice(____, size=500, replace=____)
resample_half2 = np.random.choice(____, size=500, replace=____)
test_statistic_shuffled = resample_half2 - resample_half1

# Plot both the unshuffled and shuffled results and compare
fig = plot_test_statistic(____, label='Unshuffled')
fig = plot_test_statistic(____, label='Shuffled')
Code bearbeiten und ausführen