Statistiques de test et taille d’effet
Comment explorer des relations linéaires avec le bootstrap (rééchantillonnage) ? Retour sur le sentier ! Chaque randonnée est représentée par un point, et l’on observe une relation linéaire entre la distance totale parcourue et le temps écoulé. Si l’on considère la distance parcourue comme un « effet » du temps écoulé, alors on peut explorer le lien entre la régression linéaire et l’inférence statistique.
Dans cet exercice, vous allez scinder les données en deux populations, ou « catégories » : temps précoces et temps tardifs. Vous examinerez ensuite les différences entre les distances totales parcourues au sein de chaque population. Cette différence servira de « statistique de test », et sa distribution permettra d’évaluer l’effet de la séparation des distances selon les temps.

Cet exercice fait partie du cours
Introduction à la modélisation linéaire en Python
Instructions
- Utilisez l’« indexation logique » de
numpy, par exemplesample_distances[sample_times < 5], pour séparer l’échantillondistancesen populations de temps précoces et tardifs. - Utilisez
np.random.choice()avecreplacement=Truepour créer unresamplepour chacun des deux intervalles de temps. - Calculez le tableau
test_statisticcommeresample_long - resample_short, puis calculez et affichez la taille de l’effet et l’incertitude avecnp.mean(),np.std(). - Tracez la distribution de
test_statisticen utilisant l’objet prédéfinifig = plot_test_statistic().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create two poulations, sample_distances for early and late sample_times.
# Then resample with replacement, taking 500 random draws from each population.
group_duration_short = sample_distances[____ < 5]
group_duration_long = sample_distances[____ > 5]
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)
# Difference the resamples to compute a test statistic distribution, then compute its mean and stdev
test_statistic = resample_long - resample_short
effect_size = np.mean(____)
standard_error = np.std(____)
# Print and plot the results
print('Test Statistic: mean={:0.2f}, stdev={:0.2f}'.format(____, ____))
fig = plot_test_statistic(____)