CommencerCommencer gratuitement

Erreur due à l’underfitting/overfitting

Le jeu de données sur les bonbons est propice à l’overfitting. Avec seulement 85 observations, si vous réservez 20 % pour l’ensemble de test, vous perdez beaucoup de données essentielles pour l’apprentissage. Imaginez que la majorité des bonbons au chocolat se retrouvent dans les données d’entraînement et très peu dans l’échantillon de validation. Notre modèle pourrait ne voir que le chocolat comme facteur déterminant et passer à côté d’autres attributs importants. Dans cet exercice, vous allez explorer comment utiliser trop de variables (colonnes) dans un modèle de random forest peut conduire à de l’overfitting.

Une feature correspond aux colonnes des données utilisées dans un arbre de décision. Le paramètre max_features limite le nombre de features disponibles.

Cet exercice fait partie du cours

Validation des modèles en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Update the rfr model
rfr = RandomForestRegressor(____=25,
                            ____=1111,
                            ____=2)
rfr.fit(X_train, y_train)

# Print the training and testing accuracies 
print('The training error is {0:.2f}'.format(
  mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
  mae(y_test, rfr.predict(X_test))))
Modifier et exécuter le code