Teststatistiken und Effektgröße
Wie können wir lineare Zusammenhänge mit Bootstrap-Resampling untersuchen? Zurück auf den Trail! Für jede Wanderung, die als ein Punkt dargestellt ist, sehen wir einen linearen Zusammenhang zwischen der insgesamt zurückgelegten Strecke und der verstrichenen Zeit. Wenn wir die zurückgelegte Strecke als „Effekt“ der verstrichenen Zeit betrachten, können wir die Verbindung zwischen linearer Regression und statistischer Inferenz untersuchen.
In dieser Übung teilst du die Daten in zwei Populationen bzw. „Kategorien“: frühe Zeiten und späte Zeiten. Anschließend schaust du dir die Unterschiede zwischen den insgesamt zurückgelegten Strecken innerhalb jeder Population an. Dieser Unterschied dient als „Teststatistik“, und ihre Verteilung prüft den Effekt, Distanzen nach Zeiten zu trennen.

Diese Übung ist Teil des Kurses
Einführung in lineares Modellieren mit Python
Anleitung zur Übung
- Verwende „logisches Indexieren“ mit
numpy, z. B.sample_distances[sample_times < 5], um die Stichprobedistancesin Populationen für frühe und späte Zeiten aufzuteilen. - Verwende
np.random.choice()mitreplacement=True, um für jeden der beiden Zeit-Bins einresamplezu erstellen. - Berechne das Array
test_statisticalsresample_long - resample_shortund bestimme sowie gib die Effektgröße und Unsicherheit mitnp.mean(),np.std()aus. - Plotte die Verteilung von
test_statisticmit der vordefinierten Funktionfig = plot_test_statistic().
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create two poulations, sample_distances for early and late sample_times.
# Then resample with replacement, taking 500 random draws from each population.
group_duration_short = sample_distances[____ < 5]
group_duration_long = sample_distances[____ > 5]
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)
# Difference the resamples to compute a test statistic distribution, then compute its mean and stdev
test_statistic = resample_long - resample_short
effect_size = np.mean(____)
standard_error = np.std(____)
# Print and plot the results
print('Test Statistic: mean={:0.2f}, stdev={:0.2f}'.format(____, ____))
fig = plot_test_statistic(____)