Évaluer les plis
Vous avez ajusté 10 modèles à l’aide de vos 10 plis et calculé la MAE et la RMSE pour chacun. Il est maintenant temps de visualiser l’ampleur de ces erreurs. Cela vous permettra d’acquérir une intuition sur la distribution de l’erreur hors échantillon, utile pour évaluer la qualité de votre modèle.
Vous allez tracer toutes ces erreurs sous forme d’histogramme et afficher les statistiques récapitulatives sur l’ensemble des plis.
Le résultat de l’exercice précédent, fits_cv, est préchargé.
Cet exercice fait partie du cours
Machine Learning avec des modèles à base d’arbres en R
Instructions
- Récupérez les erreurs hors échantillon de tous les modèles de
fits_cven utilisant une seule fonction deyardsticket enregistrez-les dansall_errors. - Créez un histogramme
ggplot2en utilisant.estimatecomme esthétiquexet colorez (fill) les barres selon.metric. - Utilisez la même fonction que dans la première instruction avec
summarize = TRUEpour afficher les statistiques récapitulatives defits_cv.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
library(ggplot2)
# Collect the errors
all_errors <- ___(___, summarize = ___)
# Plot an error histogram
ggplot(___, aes(___, ___)) +
___()
# Collect and print error statistics
___(fits_cv, ___)