CommencerCommencer gratuitement

Random Forest : visualisation

Vous devez maintenant tracer les prédictions. Avec le modèle d’arbres à gradient boosting, vous avez réalisé un nuage de points des réponses prédites vs. les réponses réelles, ainsi qu’un diagramme de densité des résidus. Vous allez à présent adapter ces graphiques pour afficher les résultats des deux modèles en même temps.

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

Un tibble local both_responses, contenant les années prédites et réelles pour les deux modèles, a été pré‑défini.

  • Mettez à jour le nuage de points « prédit vs. réel ».
    • Utilisez l’ensemble de données both_responses.
    • Ajoutez une esthétique de couleur pour tracer chaque modèle dans une couleur différente. Utilisez color = model.
    • Au lieu de tracer les points, utilisez geom_smooth() pour dessiner une courbe lissée pour chaque modèle.
  • Créez un tibble de résidus, nommé residuals.
    • Appelez mutate() sur both_responses.
    • La nouvelle colonne doit s’appeler residual.
    • residual doit être égal à la réponse prédite moins la réponse réelle.
  • Mettez à jour le diagramme de densité des résidus.
    • Ajoutez une esthétique de couleur pour tracer chaque modèle dans une couleur différente.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# both_responses has been pre-defined
both_responses

# Draw a scatterplot of predicted vs. actual
ggplot(___, aes(actual, predicted, ___)) +
  # Add a smoothed line
  ___ +
  # Add a line at actual = predicted
  geom_abline(intercept = 0, slope = 1)

# Create a tibble of residuals
residuals <- ___

# Draw a density plot of residuals
ggplot(residuals, aes(residual, ___)) +
    # Add a density curve
    geom_density() +
    # Add a vertical line through zero
    geom_vline(xintercept = 0)
Modifier et exécuter le code