Gradient boosted trees : prédiction
Une fois votre modèle entraîné, l’étape suivante consiste à générer des prédictions. Contrairement à base R qui utilise la fonction predict(), sparklyr utilise la fonction ml_predict(). ml_predict() prend deux arguments : un modèle et des données de test.
ml_predict(a_model, testing_data)
Un cas d’usage fréquent consiste à comparer les réponses prédites aux réponses réelles, puis à les visualiser dans R. Le schéma de code pour préparer ces données est le suivant. Notez qu’à l’heure actuelle, l’ajout d’une colonne de prédiction doit se faire localement ; vous devez donc d’abord collecter les résultats.
predicted_vs_actual <- testing_data %>%
select(actual) %>%
collect() %>%
mutate(predicted)
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
Une connexion Spark a été créée pour vous sous le nom spark_conn. Les tibbles associés aux jeux de données d’entraînement et de test stockés dans Spark ont été prédéfinis respectivement sous track_data_to_model_tbl et track_data_to_predict_tbl. Le modèle de Gradient Boosted Trees a été prédéfini sous gradient_boosted_trees_model.
- Définissez une variable
predictedqui contient les prédictions du modèle pour nos données de test.- Appelez
ml_predict()avec le modèle et les données de test en arguments. Cette fonction génère les prédictions pour le jeu de test et les ajoute dans une nouvelle colonne nomméeprediction. - À l’aide de
pull(), extrayez cette colonne et affectez-la àpredicted.
- Appelez
- Définissez la variable
responsespour préparer les données en vue de comparer les réponses prédites aux réponses réelles :- Sélectionnez la colonne de réponse
year. - Collectez les résultats.
- Utilisez
mutate()pour ajouter les prédictions contenues danspredicted.
- Sélectionnez la colonne de réponse
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Training, testing sets & model are pre-defined
track_data_to_model_tbl
track_data_to_predict_tbl
gradient_boosted_trees_model
# Predict the responses for the testing data
predicted <- ___(
___,
___) %>% pull(prediction)
# Prepare the data for comparing predicted responses with actual responses
responses <- track_data_to_predict_tbl %>%
# Select the response column
___ %>%
# Collect the results
___ %>%
# Add in the predictions
mutate(___)