Random Forest : modélisation
Comme les gradient boosted trees, les random forests constituent une autre forme de ensemble model. Autrement dit, elles combinent de nombreux modèles plus simples (à nouveau des arbres de décision) pour obtenir un modèle global plus performant. Plutôt que d’entraîner itérativement le même modèle, les random forests entraînent en parallèle une multitude de modèles distincts, chacun sur un sous-ensemble aléatoire des données et un sous-ensemble aléatoire de variables. Le modèle final effectue ensuite ses prédictions en agrégeant les résultats des modèles individuels.
La fonction random forest de sparklyr s’appelle ml_random_forest(). Son utilisation est exactement la même que celle de ml_gradient_boosted_trees() (voir le premier exercice de ce chapitre pour un rappel de la syntaxe).
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble lié aux métadonnées des pistes et aux données de timbre combinées et filtrées, stockées dans Spark, a été prédéfini sous le nom track_data_to_model_tbl.
- Reproduisez votre analyse de prédiction de l’année, cette fois avec un modèle de random forest.
- Récupérez les colonnes
timbredetrack_data_to_model_tblet affectez le résultat àfeature_colnames. - Créez la formule du modèle avec
reformulate(). - Exécutez le modèle de random forest et affectez le résultat à
random_forest_model.
- Récupérez les colonnes
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# track_data_to_model_tbl has been pre-defined
track_data_to_model_tbl
# Get the timbre columns
feature_colnames <- ___
# Create the formula for the model
year_formula <- ___
# Run the random forest model
random_forest_model <- ___