Créer deux ensembles de contrôle

Vous avez récemment créé un modèle Random Forest simple pour prédire les victoires au Tic-Tac-Toe pour votre supérieure, et, à sa demande, vous n’avez procédé à aucun réglage d’hyperparamètres. Malheureusement, la précision globale du modèle s’est révélée trop faible pour ses attentes. Cette fois, elle vous demande de vous concentrer sur la performance du modèle.

Avant d’évaluer différents modèles et jeux de paramètres, vous devez diviser les données en ensembles d’entraînement, de validation et de test. Rappelez-vous qu’après avoir séparé les données en ensembles d’entraînement et de test, l’ensemble de validation est créé en scindant l’ensemble d’entraînement.

Les jeux de données X et y ont été chargés pour vous.

Cet exercice fait partie du cours

Validation des modèles en Python

Afficher le cours

Instructions

Créez des jeux de données temporaires et de test (X_test, y_test). Utilisez 20 % de l’ensemble des données pour les jeux de test.
À partir des jeux de données temporaires (X_temp, y_temp), créez les jeux d’entraînement (X_train, y_train) et de validation (X_val, y_val).
Utilisez 25 % des données temporaires pour les jeux de validation.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____  =\
    train_test_split(X, y, ____=____, random_state=1111)

# Create the final training and validation datasets
____, ____, ____, ____ =\
    train_test_split(X_temp, y_temp, ____=____, random_state=1111)

Modifier et exécuter le code

Cet exercice fait partie du cours

Validation des modèles en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Avant de pouvoir valider des modèles, nous devons comprendre comment les créer et les utiliser. Ce chapitre propose une introduction à l’exécution de modèles de régression et de classification avec scikit-learn. Nous nous appuierons sur ces bases de construction de modèles dans les chapitres suivants.

Exercise 1: Introduction à la validation de modèles Exercise 2: Étapes de modélisation Exercise 3: Données vues vs non vues Exercise 4: Modèles de régression Exercise 5: Définir des paramètres et ajuster un modèle Exercise 6: Importances des variables Exercise 7: Modèles de classification Exercise 8: Prédictions de classification Exercise 9: Réutiliser les paramètres du modèle Exercise 10: Classificateur par forêts aléatoires

Ce chapitre se concentre sur les bases de la validation de modèles. Du découpage des données en jeux d’entraînement, de validation et de test, jusqu’à la compréhension du compromis biais‑variance, nous posons les fondations des techniques de validation K‑Fold et Leave‑One‑Out mises en pratique au chapitre trois.

Exercise 1: Créer des jeux de données d’entraînement, de test et de validation Exercise 2: Créer un jeu de validation simple (holdout)Exercise 3: Créer deux ensembles de contrôle

Exercice en cours

Exercise 4: Pourquoi utiliser des jeux de maintien (holdout)Exercise 5: Mesures de performance : modèles de régression Exercise 6: Erreur absolue moyenne Exercise 7: Erreur quadratique moyenne Exercise 8: Performances sur des sous-ensembles de données Exercise 9: Mesures de classification Exercise 10: Matrices de confusion Exercise 11: Encore des matrices de confusion Exercise 12: Précision vs. rappel Exercise 13: Le compromis biais-variance Exercise 14: Erreur due à l’underfitting/overfitting Exercise 15: Suis-je en sous-apprentissage ?

Les jeux de validation séparés (holdout) sont un excellent point de départ pour valider un modèle. Cependant, utiliser un seul jeu d’entraînement et de test est souvent insuffisant. La validation croisée est considérée comme la référence pour évaluer les performances d’un modèle et elle est presque toujours utilisée lors du réglage des hyperparamètres. Ce chapitre se concentre sur la mise en œuvre de la validation croisée pour valider les performances du modèle.

Exercise 1: Les limites des jeux de validation (holdout)Exercise 2: Deux échantillons Exercise 3: Problèmes potentiels Exercise 4: Validation croisée Exercise 5: `KFold()` de scikit-learn Exercise 6: Utiliser les indices KFold Exercise 7: cross_val_score() de sklearn Exercise 8: Méthodes de scikit-learn Exercise 9: Implémenter cross_val_score()Exercise 10: Validation croisée leave-one-out (LOOCV)Exercise 11: Quand utiliser la LOOCV Exercise 12: Leave-one-out-cross-validation

Les trois premiers chapitres étaient consacrés aux techniques de validation de modèles. Dans le chapitre 4, nous appliquons ces techniques, en particulier la validation croisée, tout en apprenant l’optimisation des hyperparamètres. Après tout, la validation rend le réglage possible et nous aide à sélectionner le meilleur modèle au global.

Exercise 1: Introduction au réglage des hyperparamètres Exercise 2: Créer des hyperparamètres Exercise 3: Exécuter un modèle en utilisant des intervalles Exercise 4: RandomizedSearchCV Exercise 5: Se préparer à RandomizedSearch Exercise 6: Implémenter RandomizedSearchCV Exercise 7: Sélection de votre modèle final Exercise 8: Meilleure précision de classification Exercise 9: Sélectionner le meilleur modèle en précision Exercise 10: Cours terminé !