Erreur due à l’underfitting/overfitting

Le jeu de données sur les bonbons est propice à l’overfitting. Avec seulement 85 observations, si vous réservez 20 % pour l’ensemble de test, vous perdez beaucoup de données essentielles pour l’apprentissage. Imaginez que la majorité des bonbons au chocolat se retrouvent dans les données d’entraînement et très peu dans l’échantillon de validation. Notre modèle pourrait ne voir que le chocolat comme facteur déterminant et passer à côté d’autres attributs importants. Dans cet exercice, vous allez explorer comment utiliser trop de variables (colonnes) dans un modèle de random forest peut conduire à de l’overfitting.

Une feature correspond aux colonnes des données utilisées dans un arbre de décision. Le paramètre max_features limite le nombre de features disponibles.

Cet exercice fait partie du cours

Validation des modèles en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Update the rfr model
rfr = RandomForestRegressor(____=25,
                            ____=1111,
                            ____=2)
rfr.fit(X_train, y_train)

# Print the training and testing accuracies 
print('The training error is {0:.2f}'.format(
  mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
  mae(y_test, rfr.predict(X_test))))

Modifier et exécuter le code

Cet exercice fait partie du cours

Validation des modèles en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Avant de pouvoir valider des modèles, nous devons comprendre comment les créer et les utiliser. Ce chapitre propose une introduction à l’exécution de modèles de régression et de classification avec scikit-learn. Nous nous appuierons sur ces bases de construction de modèles dans les chapitres suivants.

Exercise 1: Introduction à la validation de modèles Exercise 2: Étapes de modélisation Exercise 3: Données vues vs non vues Exercise 4: Modèles de régression Exercise 5: Définir des paramètres et ajuster un modèle Exercise 6: Importances des variables Exercise 7: Modèles de classification Exercise 8: Prédictions de classification Exercise 9: Réutiliser les paramètres du modèle Exercise 10: Classificateur par forêts aléatoires

Ce chapitre se concentre sur les bases de la validation de modèles. Du découpage des données en jeux d’entraînement, de validation et de test, jusqu’à la compréhension du compromis biais‑variance, nous posons les fondations des techniques de validation K‑Fold et Leave‑One‑Out mises en pratique au chapitre trois.

Exercise 1: Créer des jeux de données d’entraînement, de test et de validation Exercise 2: Créer un jeu de validation simple (holdout)Exercise 3: Créer deux ensembles de contrôle Exercise 4: Pourquoi utiliser des jeux de maintien (holdout)Exercise 5: Mesures de performance : modèles de régression Exercise 6: Erreur absolue moyenne Exercise 7: Erreur quadratique moyenne Exercise 8: Performances sur des sous-ensembles de données Exercise 9: Mesures de classification Exercise 10: Matrices de confusion Exercise 11: Encore des matrices de confusion Exercise 12: Précision vs. rappel Exercise 13: Le compromis biais-variance Exercise 14: Erreur due à l’underfitting/overfitting

Exercice en cours

Exercise 15: Suis-je en sous-apprentissage ?

Les jeux de validation séparés (holdout) sont un excellent point de départ pour valider un modèle. Cependant, utiliser un seul jeu d’entraînement et de test est souvent insuffisant. La validation croisée est considérée comme la référence pour évaluer les performances d’un modèle et elle est presque toujours utilisée lors du réglage des hyperparamètres. Ce chapitre se concentre sur la mise en œuvre de la validation croisée pour valider les performances du modèle.

Exercise 1: Les limites des jeux de validation (holdout)Exercise 2: Deux échantillons Exercise 3: Problèmes potentiels Exercise 4: Validation croisée Exercise 5: `KFold()` de scikit-learn Exercise 6: Utiliser les indices KFold Exercise 7: cross_val_score() de sklearn Exercise 8: Méthodes de scikit-learn Exercise 9: Implémenter cross_val_score()Exercise 10: Validation croisée leave-one-out (LOOCV)Exercise 11: Quand utiliser la LOOCV Exercise 12: Leave-one-out-cross-validation

Les trois premiers chapitres étaient consacrés aux techniques de validation de modèles. Dans le chapitre 4, nous appliquons ces techniques, en particulier la validation croisée, tout en apprenant l’optimisation des hyperparamètres. Après tout, la validation rend le réglage possible et nous aide à sélectionner le meilleur modèle au global.

Exercise 1: Introduction au réglage des hyperparamètres Exercise 2: Créer des hyperparamètres Exercise 3: Exécuter un modèle en utilisant des intervalles Exercise 4: RandomizedSearchCV Exercise 5: Se préparer à RandomizedSearch Exercise 6: Implémenter RandomizedSearchCV Exercise 7: Sélection de votre modèle final Exercise 8: Meilleure précision de classification Exercise 9: Sélectionner le meilleur modèle en précision Exercise 10: Cours terminé !