Visualiser des statistiques de test
Dans cet exercice, vous allez aborder l’hypothèse nulle en comparant la distribution d’une statistique de test obtenue de deux manières différentes.
D’abord, vous examinerez deux « populations », regroupées par temps précoces et tardifs, et vous calculerez la distribution de la statistique de test. Ensuite, mélangez les deux populations de sorte que les données ne soient plus ordonnées dans le temps et que chacune contienne un mélange de temps précoces et tardifs, puis recalculez la distribution de la statistique de test.
Pour vous faire gagner du temps, nous avons préchargé les deux groupes de durées, group_duration_short et group_duration_long, ainsi que deux fonctions, shuffle_and_split() et plot_test_statistic().
Cet exercice fait partie du cours
Introduction à la modélisation linéaire en Python
Instructions
- Utilisez
np.random.choice()pour rééchantillonnergroup_duration_shortetgroup_duration_long, puis faites leur différence pour calculertest_statistic_unshuffled. - Utilisez
shuffle_and_split()sur lesgroup_duration_shortetgroup_duration_longd’origine (dans cet ordre) pour créer deux nouvelles populations mixtes. - Rééchantillonnez les populations mélangées, puis soustrayez
resample_shortderesample_longpour calculer un nouveautest_statistic_shuffled. - Utilisez
plot_test_statistic()pour tracer les deux distributions de la statistique de test et les comparer visuellement.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# From the unshuffled groups, compute the test statistic distribution
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)
test_statistic_unshuffled = ____ - ____
# Shuffle two populations, cut in half, and recompute the test statistic
shuffled_half1, shuffled_half2 = shuffle_and_split(____, ____)
resample_half1 = np.random.choice(____, size=500, replace=____)
resample_half2 = np.random.choice(____, size=500, replace=____)
test_statistic_shuffled = resample_half2 - resample_half1
# Plot both the unshuffled and shuffled results and compare
fig = plot_test_statistic(____, label='Unshuffled')
fig = plot_test_statistic(____, label='Shuffled')