Performances en échantillon et hors échantillon
Un modèle plus sophistiqué est-il toujours meilleur ? Comme nous l’avons vu dans la vidéo, ce n’est qu’à moitié vrai.
Les modèles surajustés capturent parfaitement la structure de leur jeu d’entraînement, mais n’arrivent pas à généraliser à de nouvelles données. Dommage ! Au final, l’objectif d’un modèle prédictif est bien de bien performer sur de nouvelles données, n’est-ce pas ? À vous d’enquêter !
Sont déjà chargés en mémoire : le dernier modèle de l’exercice précédent, complex_model, ainsi que vos données d’entraînement et de test (chocolate_train et chocolate_test).
Cet exercice fait partie du cours
Machine Learning avec des modèles à base d’arbres en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Predict on and combine with training data and calculate the error
predict(___, new_data = ___) %>%
___ %>%
mae(___,
___)