CommencerCommencer gratuitement

Imputation avec des random forests

Une approche d’imputation basée sur le Machine Learning peut être à la fois plus précise et plus simple à mettre en œuvre que les modèles statistiques traditionnels. D’abord, elle ne vous oblige pas à spécifier les relations entre variables. De plus, des modèles de Machine Learning comme les random forests peuvent découvrir des relations très complexes et non linéaires, puis les exploiter pour prédire les valeurs manquantes.

Dans cet exercice, vous allez découvrir le package missForest, qui construit une random forest distincte pour prédire, une par une, les valeurs manquantes de chaque variable. Vous appellerez la fonction d’imputation sur les données de films biographiques, biopics, que vous avez déjà utilisées plus tôt dans le cours, puis vous extraierez les données complétées ainsi que les erreurs d’imputation estimées.

Plantons quelques random forests !

Cet exercice fait partie du cours

Gérer les données manquantes avec des imputations en R

Afficher le cours

Instructions

  • Chargez le package missForest.
  • Utilisez missForest() pour imputer les valeurs manquantes dans les données biopics ; assignez le résultat à imp_res.
  • Extrayez l’ensemble de données imputé depuis imp_res, assignez-le à imp_data, et vérifiez que le nombre de valeurs manquantes est bien nul.
  • Extrayez l’erreur d’imputation estimée depuis imp_res, assignez-la à imp_err, et affichez-la dans la console.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the missForest package
___

# Impute biopics data using missForest
imp_res <- ___(___)

# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))

# Extract and print imputation errors
imp_err <- imp_res$___
print(___)
Modifier et exécuter le code