Ajuster une random forest
Comme vous l’avez vu dans la vidéo, les modèles de random forest sont bien plus flexibles que les modèles linéaires ; ils peuvent modéliser des effets non linéaires complexes et capturer automatiquement les interactions entre variables. Ils donnent souvent d’excellents résultats sur des données réelles. Testons-en un sur le jeu de données wine quality, où l’objectif est de prédire la qualité d’un lot de vin (évaluée par des humains) à partir de certaines propriétés chimiques et physiques mesurées automatiquement pour ce lot.
Ajuster un modèle de random forest se fait exactement comme pour un modèle de régression linéaire généralisée, comme dans le chapitre précédent. Il suffit de changer l’argument method de la fonction train en "ranger". Le package ranger est une réécriture du classique randomForest de R : il ajuste les modèles beaucoup plus rapidement tout en donnant pratiquement les mêmes résultats. Nous recommandons aux débutants d’utiliser le package ranger pour la modélisation random forest.
Cet exercice fait partie du cours
Machine Learning avec caret en R
Instructions
- Entraînez une random forest appelée
modelsur le jeu de donnéeswine, oùqualityest la variable de réponse et toutes les autres variables sont explicatives. - Utilisez
method = "ranger". - Utilisez un
tuneLengthde 1. - Utilisez une validation croisée (CV) à 5 plis.
- Affichez
modeldans la console.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Fit random forest: model
model <- train(
___,
tuneLength = ___,
data = ___,
method = ___,
trControl = trainControl(
method = "cv",
number = ___,
verboseIter = TRUE
)
)
# Print model to console