Évaluer l'arbre optimal

Dans cet exercice, vous évaluerez le score ROC AUC de l'ensemble de test du modèle optimal de grid_dt.

Pour ce faire, vous déterminerez d'abord la probabilité d'obtenir l'étiquette positive pour chaque observation de l'ensemble de test. Vous pouvez utiliser la méthodepredict_proba() d'un classificateur sklearn pour calculer un tableau 2D contenant les probabilités des étiquettes de classe négatives et positives respectivement le long des colonnes.

L'ensemble de données est déjà chargé et traité pour vous (les caractéristiques numériques sont normalisées). Il est divisé en 80 % d'entraînement et 20 % de test. Les fichiers X_test et y_test sont disponibles dans votre espace de travail. De plus, nous avons également chargé l'objet GridSearchCV formé grid_dt que vous avez instancié dans l'exercice précédent. Notez que grid_dt a été formé de la manière suivante :

grid_dt.fit(X_train, y_train)

Cet exercice fait partie du cours

Machine learning avec des modèles arborescents en Python

Afficher le cours

Instructions

Importez roc_auc_score à partir de sklearn.metrics.
Veuillez extraire l'attribut .best_estimator_ de grid_dt et l'attribuer à best_model.
Veuillez prédire les probabilités de l'ensemble de test d'obtenir la classe positive y_pred_proba.
Calculez le score ROC AUC de l'ensemble de test test_roc_auc de best_model.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import roc_auc_score from sklearn.metrics
____

# Extract the best estimator
best_model = ____

# Predict the test set probabilities of the positive class
y_pred_proba = ____

# Compute test_roc_auc
test_roc_auc = ____

# Print test_roc_auc
print('Test set ROC AUC score: {:.3f}'.format(test_roc_auc))

Modifier et exécuter le code

Cet exercice fait partie du cours

Machine learning avec des modèles arborescents en Python

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Les arbres de classification et de régression (CART) sont un ensemble de modèles d'apprentissage supervisé utilisés pour les problèmes impliquant la classification et la régression. Dans ce chapitre, vous découvrirez l'algorithme CART.

Exercise 1: Arbre de décision pour la classification Exercise 2: Entraînez votre premier arbre de classification Exercise 3: Évaluer l'arbre de classification Exercise 4: Régression logistique et arbre de classification Exercise 5: Arbre de classification d’apprentissage Exercise 6: Développer un arbre de classification Exercise 7: Utilisation de l'entropie comme critère Exercise 8: Entropie vs index de Gini Exercise 9: Arbre de décision pour la régression Exercise 10: Entraînez votre premier arbre de régression Exercise 11: Évaluer l'arbre de régression Exercise 12: Régression linéaire et arbre de régression

Le compromis biais-variance est l'un des concepts fondamentaux du machine learning supervisé. Dans ce chapitre, vous apprendrez à diagnostiquer les problèmes de surajustement et de sous-ajustement. Vous découvrirez également le concept d'ensembling, qui consiste à agréger les prédictions de plusieurs modèles afin d'obtenir des prédictions plus fiables.

Exercise 1: Erreur de généralisation Exercise 2: Complexité, biais et variance Exercise 3: Surajustement et sous-ajustement Exercise 4: Identifier les problèmes de biais et de variance Exercise 5: Instancier le modèle Exercise 6: Évaluer l'erreur de validation croisée à 10 blocs Exercise 7: Évaluer l'erreur de formation Exercise 8: Biais élevé ou variance élevée ?Exercise 9: Ensemble d’apprentissage Exercise 10: Définir l'ensemble Exercise 11: Évaluer les classificateurs individuels Exercise 12: Amélioration des performances grâce à un classificateur de vote

Le bagging est une méthode d'ensemble qui consiste à entraîner plusieurs fois le même algorithme à l'aide de différents sous-ensembles échantillonnés à partir des données d'entraînement. Dans ce chapitre, vous apprendrez comment utiliser le bagging pour créer un ensemble d'arbres. Vous découvrirez également comment l'algorithme des forêts aléatoires peut conduire à une plus grande diversité de l'ensemble grâce à la randomisation au niveau de chaque division dans les arbres formant l'ensemble.

Exercise 1: Bagging Exercise 2: Définir le classificateur bagging Exercise 3: Évaluer les performances bagging Exercise 4: Évaluation Out of Bag Exercise 5: Préparer le terrain Exercise 6: Score OOB vs score du jeu de test Exercise 7: Forêts aléatoires (RF)Exercise 8: Entraîner un régresseur RF Exercise 9: Évaluer le régresseur RF Exercise 10: Visualisation de l'importance des caractéristiques

Le boosting désigne une méthode d'ensemble dans laquelle plusieurs modèles sont entraînés séquentiellement, chaque modèle apprenant à partir des erreurs de ses prédécesseurs. Dans ce chapitre, vous découvrirez les deux méthodes de renforcement AdaBoost et Gradient Boosting.

Exercise 1: Adaboost Exercise 2: Définir le classificateur AdaBoost Exercise 3: Entraîner le classificateur AdaBoost Exercise 4: Évaluer le classificateur AdaBoost Exercise 5: Amélioration de gradient (GB)Exercise 6: Définir le régresseur GB Exercise 7: Entraîner le régresseur GB Exercise 8: Évaluer le régresseur GB Exercise 9: Amélioration de gradient stochastique (SGB)Exercise 10: Régression avec SGB Exercise 11: Entraîner le régresseur SGB Exercise 12: Évaluer le régresseur SGB

Les hyperparamètres d'un modèle de machine learning sont des paramètres qui ne sont pas appris à partir des données. Ils doivent être définis avant d'adapter le modèle à l'ensemble d'apprentissage. Dans ce chapitre, vous apprendrez à ajuster les hyperparamètres d'un modèle basé sur un arbre à l'aide d'une validation croisée par recherche par grille.

Exercise 1: Réglage des hyperparamètres d'un CART Exercise 2: Hyperparamètres de l'arbre Exercise 3: Définir la grille d'hyperparamètres de l'arbre Exercise 4: Recherche de l'arbre optimal Exercise 5: Évaluer l'arbre optimal

Exercice en cours

Exercise 6: Réglage des hyperparamètres d'un RF Exercise 7: Hyperparamètres des forêts aléatoires Exercise 8: Définir la grille d'hyperparamètres de RF Exercise 9: Recherche de la forêt optimale Exercise 10: Évaluer la forêt optimale Exercise 11: Félicitations !