CommencerCommencer gratuitement

Gradient boosted trees : prédiction

Une fois votre modèle entraîné, l’étape suivante consiste à générer des prédictions. Contrairement à base R qui utilise la fonction predict(), sparklyr utilise la fonction ml_predict(). ml_predict() prend deux arguments : un modèle et des données de test.

ml_predict(a_model, testing_data)

Un cas d’usage fréquent consiste à comparer les réponses prédites aux réponses réelles, puis à les visualiser dans R. Le schéma de code pour préparer ces données est le suivant. Notez qu’à l’heure actuelle, l’ajout d’une colonne de prédiction doit se faire localement ; vous devez donc d’abord collecter les résultats.

predicted_vs_actual <- testing_data %>%
  select(actual) %>%
  collect() %>%
  mutate(predicted)

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

Une connexion Spark a été créée pour vous sous le nom spark_conn. Les tibbles associés aux jeux de données d’entraînement et de test stockés dans Spark ont été prédéfinis respectivement sous track_data_to_model_tbl et track_data_to_predict_tbl. Le modèle de Gradient Boosted Trees a été prédéfini sous gradient_boosted_trees_model.

  • Définissez une variable predicted qui contient les prédictions du modèle pour nos données de test.
    • Appelez ml_predict() avec le modèle et les données de test en arguments. Cette fonction génère les prédictions pour le jeu de test et les ajoute dans une nouvelle colonne nommée prediction.
    • À l’aide de pull(), extrayez cette colonne et affectez-la à predicted.
  • Définissez la variable responses pour préparer les données en vue de comparer les réponses prédites aux réponses réelles :
    • Sélectionnez la colonne de réponse year.
    • Collectez les résultats.
    • Utilisez mutate() pour ajouter les prédictions contenues dans predicted.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Training, testing sets & model are pre-defined
track_data_to_model_tbl
track_data_to_predict_tbl
gradient_boosted_trees_model

# Predict the responses for the testing data
predicted <- ___(
      ___,
      ___) %>% pull(prediction)

# Prepare the data for comparing predicted responses with actual responses
responses <- track_data_to_predict_tbl %>%
  # Select the response column
  ___ %>%
  # Collect the results
  ___ %>%
  # Add in the predictions
  mutate(___)
Modifier et exécuter le code