Quand l’hypothèse nulle est vraie : décision
Dans le dernier exercice, la différence observée de proportions se trouvait confortablement au milieu de la distribution nulle. Dans celui-ci, vous allez prendre une décision formelle sur le rejet (ou non) de l’hypothèse nulle, mais au lieu d’utiliser des valeurs p, vous allez vous appuyer sur la notion de région de rejet.
La région de rejet est l’intervalle de valeurs de la statistique qui vous amènerait à rejeter l’hypothèse nulle. Dans un test bilatéral, il y a deux régions de rejet. Vous savez que la région supérieure doit contenir les 2,5 % les plus élevés des statistiques nulles (quand alpha = 0,05), donc vous pouvez extraire la valeur seuil en utilisant le quantile() à 0,975. De même, la région inférieure contient les 2,5 % les plus faibles des statistiques nulles, que l’on peut aussi obtenir avec quantile().
Voici un aperçu rapide du fonctionnement de la fonction quantile() pour ce petit jeu de données x.
x <- c(0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20)
quantile(x, probs = .5)
quantile(x, probs = .8)
Une fois les régions de rejet définies par les seuils supérieur et inférieur, vous pouvez prendre votre décision concernant l’hypothèse nulle en vérifiant si votre statistique observée se situe entre ces seuils (auquel cas vous ne rejetterez pas) ou en dehors (auquel cas vous rejetterez).
Cet exercice fait partie du cours
Inférence pour des données catégorielles en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Set alpha
___
# Find cutoffs
lower <- null %>%
summarize(l = quantile(___, probs = ___)) %>%
pull()
upper <- null %>%
summarize(u = quantile(___, probs = ___)) %>%
pull()
# Is d_hat inside cutoffs?
d_hat %>%
between(___, ___)