Ajuster une random forest

Comme vous l’avez vu dans la vidéo, les modèles de random forest sont bien plus flexibles que les modèles linéaires ; ils peuvent modéliser des effets non linéaires complexes et capturer automatiquement les interactions entre variables. Ils donnent souvent d’excellents résultats sur des données réelles. Testons-en un sur le jeu de données wine quality, où l’objectif est de prédire la qualité d’un lot de vin (évaluée par des humains) à partir de certaines propriétés chimiques et physiques mesurées automatiquement pour ce lot.

Ajuster un modèle de random forest se fait exactement comme pour un modèle de régression linéaire généralisée, comme dans le chapitre précédent. Il suffit de changer l’argument method de la fonction train en "ranger". Le package ranger est une réécriture du classique randomForest de R : il ajuste les modèles beaucoup plus rapidement tout en donnant pratiquement les mêmes résultats. Nous recommandons aux débutants d’utiliser le package ranger pour la modélisation random forest.

Cet exercice fait partie du cours

<cours>Machine Learning avec caret en R</cours>

Voir le cours

Instructions de l’exercice

Entraînez une random forest appelée model sur le jeu de données wine, où quality est la variable de réponse et toutes les autres variables sont explicatives.
Utilisez method = "ranger".
Utilisez un tuneLength de 1.
Utilisez une validation croisée (CV) à 5 plis.
Affichez model dans la console.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Fit random forest: model
model <- train(
  ___,
  tuneLength = ___,
  data = ___, 
  method = ___,
  trControl = trainControl(
    method = "cv", 
    number = ___, 
    verboseIter = TRUE
  )
)

# Print model to console

Modifier et exécuter le code