CommencerCommencer gratuitement

Statistiques de test et taille d’effet

Comment explorer des relations linéaires avec le bootstrap (rééchantillonnage) ? Retour sur le sentier ! Chaque randonnée est représentée par un point, et l’on observe une relation linéaire entre la distance totale parcourue et le temps écoulé. Si l’on considère la distance parcourue comme un « effet » du temps écoulé, alors on peut explorer le lien entre la régression linéaire et l’inférence statistique.

Dans cet exercice, vous allez scinder les données en deux populations, ou « catégories » : temps précoces et temps tardifs. Vous examinerez ensuite les différences entre les distances totales parcourues au sein de chaque population. Cette différence servira de « statistique de test », et sa distribution permettra d’évaluer l’effet de la séparation des distances selon les temps.

ch04_ex11_fig03.png

Cet exercice fait partie du cours

Introduction à la modélisation linéaire en Python

Afficher le cours

Instructions

  • Utilisez l’« indexation logique » de numpy, par exemple sample_distances[sample_times < 5], pour séparer l’échantillon distances en populations de temps précoces et tardifs.
  • Utilisez np.random.choice() avec replacement=True pour créer un resample pour chacun des deux intervalles de temps.
  • Calculez le tableau test_statistic comme resample_long - resample_short, puis calculez et affichez la taille de l’effet et l’incertitude avec np.mean(), np.std().
  • Tracez la distribution de test_statistic en utilisant l’objet prédéfini fig = plot_test_statistic().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create two poulations, sample_distances for early and late sample_times.
# Then resample with replacement, taking 500 random draws from each population.
group_duration_short = sample_distances[____ < 5]
group_duration_long = sample_distances[____ > 5]
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)

# Difference the resamples to compute a test statistic distribution, then compute its mean and stdev
test_statistic = resample_long - resample_short
effect_size = np.mean(____)
standard_error = np.std(____)

# Print and plot the results
print('Test Statistic: mean={:0.2f}, stdev={:0.2f}'.format(____, ____))
fig = plot_test_statistic(____)
Modifier et exécuter le code