CommencerCommencer gratuitement

Visualiser des statistiques de test

Dans cet exercice, vous allez aborder l’hypothèse nulle en comparant la distribution d’une statistique de test obtenue de deux manières différentes.

D’abord, vous examinerez deux « populations », regroupées par temps précoces et tardifs, et vous calculerez la distribution de la statistique de test. Ensuite, mélangez les deux populations de sorte que les données ne soient plus ordonnées dans le temps et que chacune contienne un mélange de temps précoces et tardifs, puis recalculez la distribution de la statistique de test.

Pour vous faire gagner du temps, nous avons préchargé les deux groupes de durées, group_duration_short et group_duration_long, ainsi que deux fonctions, shuffle_and_split() et plot_test_statistic().

Cet exercice fait partie du cours

Introduction à la modélisation linéaire en Python

Afficher le cours

Instructions

  • Utilisez np.random.choice() pour rééchantillonner group_duration_short et group_duration_long, puis faites leur différence pour calculer test_statistic_unshuffled.
  • Utilisez shuffle_and_split() sur les group_duration_short et group_duration_long d’origine (dans cet ordre) pour créer deux nouvelles populations mixtes.
  • Rééchantillonnez les populations mélangées, puis soustrayez resample_short de resample_long pour calculer un nouveau test_statistic_shuffled.
  • Utilisez plot_test_statistic() pour tracer les deux distributions de la statistique de test et les comparer visuellement.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# From the unshuffled groups, compute the test statistic distribution
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)
test_statistic_unshuffled = ____ - ____

# Shuffle two populations, cut in half, and recompute the test statistic
shuffled_half1, shuffled_half2 = shuffle_and_split(____, ____)
resample_half1 = np.random.choice(____, size=500, replace=____)
resample_half2 = np.random.choice(____, size=500, replace=____)
test_statistic_shuffled = resample_half2 - resample_half1

# Plot both the unshuffled and shuffled results and compare
fig = plot_test_statistic(____, label='Unshuffled')
fig = plot_test_statistic(____, label='Shuffled')
Modifier et exécuter le code