Le paradoxe de Simpson
Le paradoxe de Simpson survient lorsque l’ajout ou la suppression d’un coefficient modifie les résultats de l’analyse, un point essentiel en régression.
Les données d’admission en école doctorale de l’UC‑Berkeley en 1973 (Graduate School admission data) illustrent bien ce phénomène.
À première vue, il semble que les femmes aient moins de chances d’être admises en master/doctorat.
Cependant, l’inclusion de Department comme coefficient fait disparaître la significativité du genre.
En réalité, les candidates ont davantage postulé à des programmes plus compétitifs que les candidats.
Note sur les données : Dans ces données, vous disposez de quatre colonnes : Dept, Gender, Admitted et Rejected. Vous pouvez construire un glm() « binomial » en liant les colonnes Admitted et Rejected.
Cet exercice fait partie du cours
Modèles Linéaires Généralisés (GLM) en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Build a binomial glm where Admitted and Rejected are predicted by Gender
glm_1 <- ___