Random Forest : visualisation
Vous devez maintenant tracer les prédictions. Avec le modèle d’arbres à gradient boosting, vous avez réalisé un nuage de points des réponses prédites vs. les réponses réelles, ainsi qu’un diagramme de densité des résidus. Vous allez à présent adapter ces graphiques pour afficher les résultats des deux modèles en même temps.
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
Un tibble local both_responses, contenant les années prédites et réelles pour les deux modèles, a été pré‑défini.
- Mettez à jour le nuage de points « prédit vs. réel ».
- Utilisez l’ensemble de données
both_responses. - Ajoutez une esthétique de couleur pour tracer chaque modèle dans une couleur différente. Utilisez
color = model. - Au lieu de tracer les points, utilisez
geom_smooth()pour dessiner une courbe lissée pour chaque modèle.
- Utilisez l’ensemble de données
- Créez un tibble de résidus, nommé
residuals.- Appelez
mutate()surboth_responses. - La nouvelle colonne doit s’appeler
residual. residualdoit être égal à la réponse prédite moins la réponse réelle.
- Appelez
- Mettez à jour le diagramme de densité des résidus.
- Ajoutez une esthétique de couleur pour tracer chaque modèle dans une couleur différente.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# both_responses has been pre-defined
both_responses
# Draw a scatterplot of predicted vs. actual
ggplot(___, aes(actual, predicted, ___)) +
# Add a smoothed line
___ +
# Add a line at actual = predicted
geom_abline(intercept = 0, slope = 1)
# Create a tibble of residuals
residuals <- ___
# Draw a density plot of residuals
ggplot(residuals, aes(residual, ___)) +
# Add a density curve
geom_density() +
# Add a vertical line through zero
geom_vline(xintercept = 0)