Prédictions de classification

En validation de modèle, il est souvent utile d’en savoir plus sur les prédictions que la simple classe finale. Par exemple, lorsqu’on prévoit qui va gagner un match, on s’intéresse aussi à la probabilité de victoire.

Probabilité	Prédiction	Signification
0 < .50	0	L’équipe perd
.50 +	1	L’équipe gagne

Dans cet exercice, vous allez utiliser les méthodes .predict() et .predict_proba() sur le jeu de données tic_tac_toe. La première renverra une prédiction indiquant si le Joueur 1 va gagner la partie, et la seconde fournira la probabilité que le Joueur 1 gagne. Utilisez rfc comme modèle de classification par forêt aléatoire.

Cet exercice fait partie du cours

Validation des modèles en Python

Afficher le cours

Instructions

Créez deux tableaux de prédictions : l’un pour les classes prédites et l’autre pour les probabilités prédites.
Utilisez la méthode .value_counts() d’une Series pandas pour afficher le nombre d’observations attribuées à chaque classe.
Affichez la première observation de probability_predictions pour voir la structure des probabilités.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Fit the rfc model. 
rfc.fit(X_train, y_train)

# Create arrays of predictions
classification_predictions = rfc.____(X_test)
probability_predictions = rfc.____(X_test)

# Print out count of binary predictions
print(pd.Series(____).____())

# Print the first value from probability_predictions
print('The first predicted probabilities are: {}'.format(____[____]))

Modifier et exécuter le code

Cet exercice fait partie du cours

Validation des modèles en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Avant de pouvoir valider des modèles, nous devons comprendre comment les créer et les utiliser. Ce chapitre propose une introduction à l’exécution de modèles de régression et de classification avec scikit-learn. Nous nous appuierons sur ces bases de construction de modèles dans les chapitres suivants.

Exercise 1: Introduction à la validation de modèles Exercise 2: Étapes de modélisation Exercise 3: Données vues vs non vues Exercise 4: Modèles de régression Exercise 5: Définir des paramètres et ajuster un modèle Exercise 6: Importances des variables Exercise 7: Modèles de classification Exercise 8: Prédictions de classification

Exercice en cours

Exercise 9: Réutiliser les paramètres du modèle Exercise 10: Classificateur par forêts aléatoires

Ce chapitre se concentre sur les bases de la validation de modèles. Du découpage des données en jeux d’entraînement, de validation et de test, jusqu’à la compréhension du compromis biais‑variance, nous posons les fondations des techniques de validation K‑Fold et Leave‑One‑Out mises en pratique au chapitre trois.

Exercise 1: Créer des jeux de données d’entraînement, de test et de validation Exercise 2: Créer un jeu de validation simple (holdout)Exercise 3: Créer deux ensembles de contrôle Exercise 4: Pourquoi utiliser des jeux de maintien (holdout)Exercise 5: Mesures de performance : modèles de régression Exercise 6: Erreur absolue moyenne Exercise 7: Erreur quadratique moyenne Exercise 8: Performances sur des sous-ensembles de données Exercise 9: Mesures de classification Exercise 10: Matrices de confusion Exercise 11: Encore des matrices de confusion Exercise 12: Précision vs. rappel Exercise 13: Le compromis biais-variance Exercise 14: Erreur due à l’underfitting/overfitting Exercise 15: Suis-je en sous-apprentissage ?

Les jeux de validation séparés (holdout) sont un excellent point de départ pour valider un modèle. Cependant, utiliser un seul jeu d’entraînement et de test est souvent insuffisant. La validation croisée est considérée comme la référence pour évaluer les performances d’un modèle et elle est presque toujours utilisée lors du réglage des hyperparamètres. Ce chapitre se concentre sur la mise en œuvre de la validation croisée pour valider les performances du modèle.

Exercise 1: Les limites des jeux de validation (holdout)Exercise 2: Deux échantillons Exercise 3: Problèmes potentiels Exercise 4: Validation croisée Exercise 5: `KFold()` de scikit-learn Exercise 6: Utiliser les indices KFold Exercise 7: cross_val_score() de sklearn Exercise 8: Méthodes de scikit-learn Exercise 9: Implémenter cross_val_score()Exercise 10: Validation croisée leave-one-out (LOOCV)Exercise 11: Quand utiliser la LOOCV Exercise 12: Leave-one-out-cross-validation

Les trois premiers chapitres étaient consacrés aux techniques de validation de modèles. Dans le chapitre 4, nous appliquons ces techniques, en particulier la validation croisée, tout en apprenant l’optimisation des hyperparamètres. Après tout, la validation rend le réglage possible et nous aide à sélectionner le meilleur modèle au global.

Exercise 1: Introduction au réglage des hyperparamètres Exercise 2: Créer des hyperparamètres Exercise 3: Exécuter un modèle en utilisant des intervalles Exercise 4: RandomizedSearchCV Exercise 5: Se préparer à RandomizedSearch Exercise 6: Implémenter RandomizedSearchCV Exercise 7: Sélection de votre modèle final Exercise 8: Meilleure précision de classification Exercise 9: Sélectionner le meilleur modèle en précision Exercise 10: Cours terminé !