Test d’hypothèse : la fréquence des séismes a-t-elle changé ?
Il y a évidemment eu une forte hausse de la fréquence des séismes après le début de l’injection des eaux usées. Néanmoins, vous allez réaliser un test d’hypothèse pour vous entraîner. Vous n’allez pas tester l’hypothèse selon laquelle les intervalles entre séismes suivent la même distribution avant et après 2010, car l’injection d’eaux usées peut modifier cette distribution. À la place, vous allez supposer qu’ils ont la même moyenne. Calculez donc la p-valeur associée à l’hypothèse que les intervalles entre séismes avant et après 2010 ont la même moyenne, en utilisant comme statistique de test la moyenne des intervalles avant 2010 moins la moyenne des intervalles après 2010.
Cet exercice fait partie du cours
Études de cas en pensée statistique
Instructions
- Calculez la statistique de test observée. Les variables
mean_dt_preetmean_dt_postdes exercices précédents sont déjà dans votre espace de travail. - Décalez les données postérieures à 2010 pour qu’elles aient la même moyenne que les données antérieures à 2010. Enregistrez le résultat sous
dt_post_shift. - Tirez 10 000 réplicats bootstrap de la moyenne de
dt_preet dedt_post_shift. Stockez les résultats respectifs dansbs_reps_preetbs_reps_post. - Calculez des réplicats de la différence de moyennes en soustrayant
bs_reps_postdebs_reps_pre. - Calculez et affichez la p-valeur. Considérez « au moins aussi extrême que » comme le cas où la statistique de test est supérieure ou égale à la valeur observée.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Compute the observed test statistic
mean_dt_diff = ____ - ____
# Shift the post-2010 data to have the same mean as the pre-2010 data
dt_post_shift = ____ - ____ + ____
# Compute 10,000 bootstrap replicates from arrays
bs_reps_pre = ____
bs_reps_post = ____
# Get replicates of difference of means
bs_reps = ____ - ____
# Compute and print the p-value
p_val = ____(____ >= ____) / 10000
print('p =', p_val)