Random Forest : modélisation

Comme les gradient boosted trees, les random forests constituent une autre forme de ensemble model. Autrement dit, elles combinent de nombreux modèles plus simples (à nouveau des arbres de décision) pour obtenir un modèle global plus performant. Plutôt que d’entraîner itérativement le même modèle, les random forests entraînent en parallèle une multitude de modèles distincts, chacun sur un sous-ensemble aléatoire des données et un sous-ensemble aléatoire de variables. Le modèle final effectue ensuite ses prédictions en agrégeant les résultats des modèles individuels.

La fonction random forest de sparklyr s’appelle ml_random_forest(). Son utilisation est exactement la même que celle de ml_gradient_boosted_trees() (voir le premier exercice de ce chapitre pour un rappel de la syntaxe).

Cet exercice fait partie du cours

<cours>Introduction à Spark avec sparklyr en R</cours>

Voir le cours

Instructions de l’exercice

Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble lié aux métadonnées des pistes et aux données de timbre combinées et filtrées, stockées dans Spark, a été prédéfini sous le nom track_data_to_model_tbl.

Reproduisez votre analyse de prédiction de l’année, cette fois avec un modèle de random forest.
- Récupérez les colonnes timbre de track_data_to_model_tbl et affectez le résultat à feature_colnames.
- Créez la formule du modèle avec reformulate().
- Exécutez le modèle de random forest et affectez le résultat à random_forest_model.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# track_data_to_model_tbl has been pre-defined
track_data_to_model_tbl

# Get the timbre columns
feature_colnames <- ___

# Create the formula for the model
year_formula <- ___

# Run the random forest model
random_forest_model <- ___

Modifier et exécuter le code