Erreur due à l’underfitting/overfitting
Le jeu de données sur les bonbons est propice à l’overfitting. Avec seulement 85 observations, si vous réservez 20 % pour l’ensemble de test, vous perdez beaucoup de données essentielles pour l’apprentissage. Imaginez que la majorité des bonbons au chocolat se retrouvent dans les données d’entraînement et très peu dans l’échantillon de validation. Notre modèle pourrait ne voir que le chocolat comme facteur déterminant et passer à côté d’autres attributs importants. Dans cet exercice, vous allez explorer comment utiliser trop de variables (colonnes) dans un modèle de random forest peut conduire à de l’overfitting.
Une feature correspond aux colonnes des données utilisées dans un arbre de décision. Le paramètre max_features limite le nombre de features disponibles.
Cet exercice fait partie du cours
Validation des modèles en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Update the rfr model
rfr = RandomForestRegressor(____=25,
____=1111,
____=2)
rfr.fit(X_train, y_train)
# Print the training and testing accuracies
print('The training error is {0:.2f}'.format(
mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
mae(y_test, rfr.predict(X_test))))