Suis-je en sous-apprentissage ?

Vous créez un modèle de random forest pour prédire si vous allez gagner une future partie de Tic-Tac-Toe. À partir du jeu de données tic_tac_toe, vous avez constitué des jeux d’entraînement et de test : X_train, X_test, y_train et y_test.

Vous avez choisi d’entraîner plusieurs modèles de random forest avec des nombres d’arbres différents (1, 2, 3, 4, 5, 10, 20 et 50). Plus vous utilisez d’arbres, plus l’exécution du modèle sera longue. En revanche, si vous n’en utilisez pas assez, vous risquez le sous-apprentissage. Vous avez créé une boucle for pour tester votre modèle avec ces différents nombres d’arbres.

Cet exercice fait partie du cours

Validation des modèles en Python

Afficher le cours

Instructions

À chaque itération, prédisez des valeurs pour les jeux de données X_train et X_test.
À chaque itération, ajoutez à train_scores le accuracy_score() du jeu y_train et des prédictions correspondantes.
À chaque itération, ajoutez à test_scores le accuracy_score() du jeu y_test et des prédictions correspondantes.
Affichez les scores d’entraînement et de test en utilisant les instructions print.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from sklearn.metrics import accuracy_score

test_scores, train_scores = [], []
for i in [1, 2, 3, 4, 5, 10, 20, 50]:
    rfc = RandomForestClassifier(n_estimators=i, random_state=1111)
    rfc.fit(X_train, y_train)
    # Create predictions for the X_train and X_test datasets.
    train_predictions = rfc.predict(____)
    test_predictions = rfc.predict(____)
    # Append the accuracy score for the test and train predictions.
    train_scores.append(round(____(____, ____), 2))
    test_scores.append(round(____(____, ____), 2))
# Print the train and test scores.
print("The training scores were: {}".format(____))
print("The testing scores were: {}".format(____))

Modifier et exécuter le code

Cet exercice fait partie du cours

Validation des modèles en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Avant de pouvoir valider des modèles, nous devons comprendre comment les créer et les utiliser. Ce chapitre propose une introduction à l’exécution de modèles de régression et de classification avec scikit-learn. Nous nous appuierons sur ces bases de construction de modèles dans les chapitres suivants.

Exercise 1: Introduction à la validation de modèles Exercise 2: Étapes de modélisation Exercise 3: Données vues vs non vues Exercise 4: Modèles de régression Exercise 5: Définir des paramètres et ajuster un modèle Exercise 6: Importances des variables Exercise 7: Modèles de classification Exercise 8: Prédictions de classification Exercise 9: Réutiliser les paramètres du modèle Exercise 10: Classificateur par forêts aléatoires

Ce chapitre se concentre sur les bases de la validation de modèles. Du découpage des données en jeux d’entraînement, de validation et de test, jusqu’à la compréhension du compromis biais‑variance, nous posons les fondations des techniques de validation K‑Fold et Leave‑One‑Out mises en pratique au chapitre trois.

Exercise 1: Créer des jeux de données d’entraînement, de test et de validation Exercise 2: Créer un jeu de validation simple (holdout)Exercise 3: Créer deux ensembles de contrôle Exercise 4: Pourquoi utiliser des jeux de maintien (holdout)Exercise 5: Mesures de performance : modèles de régression Exercise 6: Erreur absolue moyenne Exercise 7: Erreur quadratique moyenne Exercise 8: Performances sur des sous-ensembles de données Exercise 9: Mesures de classification Exercise 10: Matrices de confusion Exercise 11: Encore des matrices de confusion Exercise 12: Précision vs. rappel Exercise 13: Le compromis biais-variance Exercise 14: Erreur due à l’underfitting/overfitting Exercise 15: Suis-je en sous-apprentissage ?

Exercice en cours

Les jeux de validation séparés (holdout) sont un excellent point de départ pour valider un modèle. Cependant, utiliser un seul jeu d’entraînement et de test est souvent insuffisant. La validation croisée est considérée comme la référence pour évaluer les performances d’un modèle et elle est presque toujours utilisée lors du réglage des hyperparamètres. Ce chapitre se concentre sur la mise en œuvre de la validation croisée pour valider les performances du modèle.

Exercise 1: Les limites des jeux de validation (holdout)Exercise 2: Deux échantillons Exercise 3: Problèmes potentiels Exercise 4: Validation croisée Exercise 5: `KFold()` de scikit-learn Exercise 6: Utiliser les indices KFold Exercise 7: cross_val_score() de sklearn Exercise 8: Méthodes de scikit-learn Exercise 9: Implémenter cross_val_score()Exercise 10: Validation croisée leave-one-out (LOOCV)Exercise 11: Quand utiliser la LOOCV Exercise 12: Leave-one-out-cross-validation

Les trois premiers chapitres étaient consacrés aux techniques de validation de modèles. Dans le chapitre 4, nous appliquons ces techniques, en particulier la validation croisée, tout en apprenant l’optimisation des hyperparamètres. Après tout, la validation rend le réglage possible et nous aide à sélectionner le meilleur modèle au global.

Exercise 1: Introduction au réglage des hyperparamètres Exercise 2: Créer des hyperparamètres Exercise 3: Exécuter un modèle en utilisant des intervalles Exercise 4: RandomizedSearchCV Exercise 5: Se préparer à RandomizedSearch Exercise 6: Implémenter RandomizedSearchCV Exercise 7: Sélection de votre modèle final Exercise 8: Meilleure précision de classification Exercise 9: Sélectionner le meilleur modèle en précision Exercise 10: Cours terminé !