Erreurs d’imputation par variable
Dans l’exercice précédent, vous avez extrait les erreurs d’imputation estimées à partir de la sortie de missForest. Cela vous a donné deux nombres :
- la racine de l’erreur quadratique moyenne normalisée (NRMSE) pour toutes les variables continues ;
- la proportion d’entrées mal classées (PFC) pour toutes les variables catégorielles.
Cependant, il est tout à fait possible que le modèle d’imputation soit excellent pour une variable continue et mauvais pour une autre ! Pour diagnostiquer ce type de cas, il suffit de demander à missForest de produire des estimations d’erreur par variable. Pour cela, définissez l’argument variablewise à TRUE.
Les données biopics et le package missForest ont déjà été chargés pour vous. Examinons de plus près ces erreurs !
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Impute biopics data with missForest computing per-variable errors
imp_res <- ___(___, ___ = ___)