Compromis entre vitesse et précision
Dans la dernière vidéo, vous avez vu qu’il existe deux paramètres que vous pouvez ajuster pour influencer les performances des random forests :
- Le nombre d’arbres de décision dans chaque forêt.
- Le nombre de variables utilisées pour le découpage au sein des arbres de décision.
Augmenter chacun d’eux peut améliorer la précision du modèle d’imputation, mais cela demandera aussi plus de temps d’exécution. Dans cet exercice, vous allez explorer ces idées en ajustant missForest() sur les données biopics deux fois avec des réglages différents. En suivant les instructions, prêtez attention aux erreurs que vous afficherez et au temps d’exécution du code.
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Set number of trees to 5 and number of variables used for splitting to 2
imp_res <- missForest(biopics, ___ = ___, ___ = ___)
# Print the resulting imputation errors
print(___)