CommencerCommencer gratuitement

Gradient boosted trees : visualisation

Maintenant que vous avez vos prédictions de modèle, vous vous demandez peut‑être « sont‑elles bonnes ? ». Il existe de nombreux graphiques pour diagnostiquer la qualité de vos prédictions ; ici, vous allez examiner deux visualisations courantes. D’abord, il est utile de tracer un nuage de points de la réponse prédite par rapport à la réponse réelle pour voir comment elles se comparent. Ensuite, les résidus devraient être proches d’une distribution normale ; il est donc pertinent de tracer une courbe de densité des résidus. Les graphiques ressembleront à ceux‑ci.

Scatterplot of predicted response vs. actual response and density plot of distribution of residuals side by side.

Dans cet exercice, vous apprendrez à calculer vous‑même les résidus (réponses prédites moins réponses réelles) pour vos prédictions.

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

Un tibble local responses, contenant les années prédites et réelles, a été pré‑défini.

  • Tracez un nuage de points des réponses prédites vs. réelles.
    • Appelez ggplot().
    • Le premier argument est le jeu de données, responses.
    • Le deuxième argument doit contenir les noms de colonnes non quotés pour les axes x et y (actual et predicted respectivement), encapsulés dans aes().
    • Ajoutez les points avec un appel à geom_point().
    • Rendez les points partiellement transparents en fixant alpha = 0.1.
    • Ajoutez une ligne de référence avec geom_abline() en définissant intercept = 0 et slope = 1.
  • Créez un tibble de résidus, nommé residuals.
    • Appelez transmute() sur responses.
    • La nouvelle colonne doit s’appeler residual.
    • residual doit être égal à la réponse prédite moins la réponse réelle.
  • Tracez une courbe de densité des résidus.
    • Faites passer le tibble transmuté dans ggplot().
    • ggplot() a besoin d’un seul esthétique, residual encapsulé dans aes().
    • Ajoutez une courbe de densité de probabilité en appelant geom_density().
    • Ajoutez une ligne verticale de référence à zéro en appelant geom_vline() avec xintercept = 0.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# responses has been pre-defined
responses

# Draw a scatterplot of predicted vs. actual
ggplot(___, aes(___, ___)) +
  # Add the points
  ___ +
  # Add a line at actual = predicted
  ___

residuals <- responses %>%
  # Transmute response data to residuals
  ___

# Draw a density plot of residuals
ggplot(___, aes(___)) +
    # Add a density curve
    ___ +
    # Add a vertical line through zero
    ___
Modifier et exécuter le code