Performance sur l’échantillon d’entraînement
Il est essentiel de savoir si votre modèle de régression est utile ou non. Un modèle utile peut être celui qui restitue bien la structure de votre jeu d’entraînement. Une façon d’évaluer cette performance « sur l’échantillon » est de prédire sur les données d’entraînement puis de calculer l’erreur absolue moyenne de tous les points prédits.
Dans cet exercice, vous allez évaluer vos prévisions sur l’échantillon à l’aide de la MAE (mean absolute error). La MAE indique à quelle distance, en moyenne, se trouvent les prédictions par rapport aux valeurs réelles.
Elle se calcule avec la formule suivante, où \(n\) est le nombre de prédictions réalisées :
$$MAE = \frac{1}{n} \cdot \sum_{i=1}^n \text{valeur absolue de l’erreur }i\text{ }$$
Votre espace de travail contient model, l’arbre de régression que vous avez construit dans les exercices précédents.
Cet exercice fait partie du cours
Machine Learning avec des modèles à base d’arbres en R
Instructions
- Créez
in_sample_predictionsen utilisantmodelpour prédire sur le tibblechocolate_train. - Calculez un vecteur
abs_diffsqui contient les différences absolues entre les prédictions sur l’échantillon et les notes réelles. - Calculez la mean absolute error selon la formule ci-dessus.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Predict using the training set
in_sample_predictions <- predict(model,
___)
# Calculate the vector of absolute differences
abs_diffs <- ___(__$___ - ___$___)
# Calculate the mean absolute error
1 / ___ * ___