Deux échantillons

Après avoir construit plusieurs modèles de classification à partir du jeu de données tic_tac_toe, vous constatez que certains modèles généralisent moins bien que d’autres. Vous avez bien créé des partitions d’entraînement et de test comme on vous l’a appris, et vous vous demandez pourquoi votre processus de validation ne fonctionne pas comme prévu.

Après avoir essayé une autre partition entraînement/test, vous avez observé des précisions différentes pour votre modèle de Machine Learning. Avant de vous laisser frustrer par ces résultats variables, vous décidez d’examiner ce qui pourrait se passer.

Cet exercice fait partie du cours

Validation des modèles en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create two different samples of 200 observations 
sample1 = tic_tac_toe.____(____, random_state=1111)
sample2 = tic_tac_toe.____(____, random_state=1171)

Modifier et exécuter le code

Cet exercice fait partie du cours

Validation des modèles en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Avant de pouvoir valider des modèles, nous devons comprendre comment les créer et les utiliser. Ce chapitre propose une introduction à l’exécution de modèles de régression et de classification avec scikit-learn. Nous nous appuierons sur ces bases de construction de modèles dans les chapitres suivants.

Exercise 1: Introduction à la validation de modèles Exercise 2: Étapes de modélisation Exercise 3: Données vues vs non vues Exercise 4: Modèles de régression Exercise 5: Définir des paramètres et ajuster un modèle Exercise 6: Importances des variables Exercise 7: Modèles de classification Exercise 8: Prédictions de classification Exercise 9: Réutiliser les paramètres du modèle Exercise 10: Classificateur par forêts aléatoires

Ce chapitre se concentre sur les bases de la validation de modèles. Du découpage des données en jeux d’entraînement, de validation et de test, jusqu’à la compréhension du compromis biais‑variance, nous posons les fondations des techniques de validation K‑Fold et Leave‑One‑Out mises en pratique au chapitre trois.

Exercise 1: Créer des jeux de données d’entraînement, de test et de validation Exercise 2: Créer un jeu de validation simple (holdout)Exercise 3: Créer deux ensembles de contrôle Exercise 4: Pourquoi utiliser des jeux de maintien (holdout)Exercise 5: Mesures de performance : modèles de régression Exercise 6: Erreur absolue moyenne Exercise 7: Erreur quadratique moyenne Exercise 8: Performances sur des sous-ensembles de données Exercise 9: Mesures de classification Exercise 10: Matrices de confusion Exercise 11: Encore des matrices de confusion Exercise 12: Précision vs. rappel Exercise 13: Le compromis biais-variance Exercise 14: Erreur due à l’underfitting/overfitting Exercise 15: Suis-je en sous-apprentissage ?

Les jeux de validation séparés (holdout) sont un excellent point de départ pour valider un modèle. Cependant, utiliser un seul jeu d’entraînement et de test est souvent insuffisant. La validation croisée est considérée comme la référence pour évaluer les performances d’un modèle et elle est presque toujours utilisée lors du réglage des hyperparamètres. Ce chapitre se concentre sur la mise en œuvre de la validation croisée pour valider les performances du modèle.

Exercise 1: Les limites des jeux de validation (holdout)Exercise 2: Deux échantillons

Exercice en cours

Exercise 3: Problèmes potentiels Exercise 4: Validation croisée Exercise 5: `KFold()` de scikit-learn Exercise 6: Utiliser les indices KFold Exercise 7: cross_val_score() de sklearn Exercise 8: Méthodes de scikit-learn Exercise 9: Implémenter cross_val_score()Exercise 10: Validation croisée leave-one-out (LOOCV)Exercise 11: Quand utiliser la LOOCV Exercise 12: Leave-one-out-cross-validation

Les trois premiers chapitres étaient consacrés aux techniques de validation de modèles. Dans le chapitre 4, nous appliquons ces techniques, en particulier la validation croisée, tout en apprenant l’optimisation des hyperparamètres. Après tout, la validation rend le réglage possible et nous aide à sélectionner le meilleur modèle au global.

Exercise 1: Introduction au réglage des hyperparamètres Exercise 2: Créer des hyperparamètres Exercise 3: Exécuter un modèle en utilisant des intervalles Exercise 4: RandomizedSearchCV Exercise 5: Se préparer à RandomizedSearch Exercise 6: Implémenter RandomizedSearchCV Exercise 7: Sélection de votre modèle final Exercise 8: Meilleure précision de classification Exercise 9: Sélectionner le meilleur modèle en précision Exercise 10: Cours terminé !