LoslegenKostenlos loslegen

Teststatistiken und Effektgröße

Wie können wir lineare Zusammenhänge mit Bootstrap-Resampling untersuchen? Zurück auf den Trail! Für jede Wanderung, die als ein Punkt dargestellt ist, sehen wir einen linearen Zusammenhang zwischen der insgesamt zurückgelegten Strecke und der verstrichenen Zeit. Wenn wir die zurückgelegte Strecke als „Effekt“ der verstrichenen Zeit betrachten, können wir die Verbindung zwischen linearer Regression und statistischer Inferenz untersuchen.

In dieser Übung teilst du die Daten in zwei Populationen bzw. „Kategorien“: frühe Zeiten und späte Zeiten. Anschließend schaust du dir die Unterschiede zwischen den insgesamt zurückgelegten Strecken innerhalb jeder Population an. Dieser Unterschied dient als „Teststatistik“, und ihre Verteilung prüft den Effekt, Distanzen nach Zeiten zu trennen.

ch04_ex11_fig03.png

Diese Übung ist Teil des Kurses

Einführung in lineares Modellieren mit Python

Kurs anzeigen

Anleitung zur Übung

  • Verwende „logisches Indexieren“ mit numpy, z. B. sample_distances[sample_times < 5], um die Stichprobe distances in Populationen für frühe und späte Zeiten aufzuteilen.
  • Verwende np.random.choice() mit replacement=True, um für jeden der beiden Zeit-Bins ein resample zu erstellen.
  • Berechne das Array test_statistic als resample_long - resample_short und bestimme sowie gib die Effektgröße und Unsicherheit mit np.mean(), np.std() aus.
  • Plotte die Verteilung von test_statistic mit der vordefinierten Funktion fig = plot_test_statistic().

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create two poulations, sample_distances for early and late sample_times.
# Then resample with replacement, taking 500 random draws from each population.
group_duration_short = sample_distances[____ < 5]
group_duration_long = sample_distances[____ > 5]
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)

# Difference the resamples to compute a test statistic distribution, then compute its mean and stdev
test_statistic = resample_long - resample_short
effect_size = np.mean(____)
standard_error = np.std(____)

# Print and plot the results
print('Test Statistic: mean={:0.2f}, stdev={:0.2f}'.format(____, ____))
fig = plot_test_statistic(____)
Code bearbeiten und ausführen