Utiliser une matrice de prédicteurs
Une décision importante lors d’une imputation basée sur un modèle consiste à choisir quelles variables inclure comme prédicteurs, et dans quels modèles. Dans mice(), cela est régi par la matrice de prédicteurs et, par défaut, toutes les variables servent à imputer toutes les autres.
S’il y a beaucoup de variables dans les données ou peu de temps pour réaliser une vraie sélection de modèle, vous pouvez utiliser la fonctionnalité de mice pour créer une matrice de prédicteurs basée sur les corrélations entre variables. Cette matrice peut ensuite être passée à mice(). Dans cet exercice, vous allez faire exactement cela : vous construirez d’abord une matrice de prédicteurs de sorte que chaque variable soit imputée à partir des variables les plus corrélées avec elle ; puis, vous transmettrez votre matrice de prédicteurs à la fonction d’imputation. Essayons cette sélection de modèle simple !
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create predictor matrix with minimum correlation of 0.1
pred_mat <- ___(biopics, mincor = ___)