Gradient boosted trees : visualisation
Maintenant que vous avez vos prédictions de modèle, vous vous demandez peut‑être « sont‑elles bonnes ? ». Il existe de nombreux graphiques pour diagnostiquer la qualité de vos prédictions ; ici, vous allez examiner deux visualisations courantes. D’abord, il est utile de tracer un nuage de points de la réponse prédite par rapport à la réponse réelle pour voir comment elles se comparent. Ensuite, les résidus devraient être proches d’une distribution normale ; il est donc pertinent de tracer une courbe de densité des résidus. Les graphiques ressembleront à ceux‑ci.

Dans cet exercice, vous apprendrez à calculer vous‑même les résidus (réponses prédites moins réponses réelles) pour vos prédictions.
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
Un tibble local responses, contenant les années prédites et réelles, a été pré‑défini.
- Tracez un nuage de points des réponses prédites vs. réelles.
- Appelez
ggplot(). - Le premier argument est le jeu de données,
responses. - Le deuxième argument doit contenir les noms de colonnes non quotés pour les axes x et y (
actualetpredictedrespectivement), encapsulés dansaes(). - Ajoutez les points avec un appel à
geom_point(). - Rendez les points partiellement transparents en fixant
alpha = 0.1. - Ajoutez une ligne de référence avec
geom_abline()en définissantintercept = 0etslope = 1.
- Appelez
- Créez un tibble de résidus, nommé
residuals.- Appelez
transmute()surresponses. - La nouvelle colonne doit s’appeler
residual. residualdoit être égal à la réponse prédite moins la réponse réelle.
- Appelez
- Tracez une courbe de densité des résidus.
- Faites passer le tibble transmuté dans
ggplot(). ggplot()a besoin d’un seul esthétique,residualencapsulé dansaes().- Ajoutez une courbe de densité de probabilité en appelant
geom_density(). - Ajoutez une ligne verticale de référence à zéro en appelant
geom_vline()avecxintercept = 0.
- Faites passer le tibble transmuté dans
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# responses has been pre-defined
responses
# Draw a scatterplot of predicted vs. actual
ggplot(___, aes(___, ___)) +
# Add the points
___ +
# Add a line at actual = predicted
___
residuals <- responses %>%
# Transmute response data to residuals
___
# Draw a density plot of residuals
ggplot(___, aes(___)) +
# Add a density curve
___ +
# Add a vertical line through zero
___