Imputation avec des random forests
Une approche d’imputation basée sur le Machine Learning peut être à la fois plus précise et plus simple à mettre en œuvre que les modèles statistiques traditionnels. D’abord, elle ne vous oblige pas à spécifier les relations entre variables. De plus, des modèles de Machine Learning comme les random forests peuvent découvrir des relations très complexes et non linéaires, puis les exploiter pour prédire les valeurs manquantes.
Dans cet exercice, vous allez découvrir le package missForest, qui construit une random forest distincte pour prédire, une par une, les valeurs manquantes de chaque variable. Vous appellerez la fonction d’imputation sur les données de films biographiques, biopics, que vous avez déjà utilisées plus tôt dans le cours, puis vous extraierez les données complétées ainsi que les erreurs d’imputation estimées.
Plantons quelques random forests !
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Instructions
- Chargez le package
missForest. - Utilisez
missForest()pour imputer les valeurs manquantes dans les donnéesbiopics; assignez le résultat àimp_res. - Extrayez l’ensemble de données imputé depuis
imp_res, assignez-le àimp_data, et vérifiez que le nombre de valeurs manquantes est bien nul. - Extrayez l’erreur d’imputation estimée depuis
imp_res, assignez-la àimp_err, et affichez-la dans la console.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the missForest package
___
# Impute biopics data using missForest
imp_res <- ___(___)
# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))
# Extract and print imputation errors
imp_err <- imp_res$___
print(___)