Random Forest : prédiction

Vous devez maintenant effectuer des prédictions avec votre modèle de random forest. La syntaxe est la même que pour le modèle de gradient boosted trees.

Cet exercice fait partie du cours

<cours>Introduction à Spark avec sparklyr en R</cours>

Voir le cours

Instructions de l’exercice

Une connexion Spark a été créée pour vous sous le nom spark_conn. Les tibbles rattachées aux jeux d’entraînement et de test stockés dans Spark ont été prédéfinies comme track_data_to_model_tbl et track_data_to_predict_tbl respectivement. Le modèle de random forest a été prédéfini sous le nom random_forest_model.

Définissez une variable predicted qui contient les prédictions du modèle pour nos données de test.
- Appelez ml_predict() avec le modèle et les données de test comme arguments. Cette fonction générera des prédictions pour le jeu de test et les ajoutera sous forme d’une nouvelle colonne nommée prediction.
Définissez la variable responses pour préparer les données à la comparaison entre les réponses prédites et les réponses réelles :
- Sélectionnez la colonne de réponse year.
- Collectez les résultats.
- Utilisez mutate() pour ajouter les prédictions réalisées dans predicted.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Training, testing sets & model are pre-defined
track_data_to_model_tbl
track_data_to_predict_tbl
random_forest_model

# Predict the responses for the testing data
predicted <- ml_predict(
      ___,
      ___) %>% pull(prediction)

# Create a response vs. actual dataset
responses <- ___

Modifier et exécuter le code