Évaluer l'arbre optimal
Dans cet exercice, vous évaluerez le score ROC AUC de l'ensemble de test du modèle optimal d' grid_dt.
Pour ce faire, vous déterminerez d'abord la probabilité d'obtenir l'étiquette positive pour chaque observation de l'ensemble de test. Vous pouvez utiliser la méthodepredict_proba() d'un classificateur sklearn pour calculer un tableau 2D contenant les probabilités des étiquettes de classe négatives et positives respectivement le long des colonnes.
L'ensemble de données est déjà chargé et traité pour vous (les caractéristiques numériques sont normalisées) ; il est divisé en 80 % d'entraînement et 20 % de test. Les fichiers X_test et y_test sont disponibles dans votre espace de travail. De plus, nous avons également chargé l'objet GridSearchCV formé grid_dt que vous avez instancié dans l'exercice précédent. Veuillez noter que grid_dt a été formé de la manière suivante :
grid_dt.fit(X_train, y_train)
Cet exercice fait partie du cours
Machine learning avec des modèles arborescents en Python
Instructions
Importez
roc_auc_scoreà partir desklearn.metrics.Veuillez extraire l'attribut
.best_estimator_degrid_dtet l'attribuer àbest_model.Veuillez prédire les probabilités de l'ensemble de test d'obtenir la classe positive.
y_pred_probaCalculez le score ROC AUC de l'ensemble de test
test_roc_aucdebest_model.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import roc_auc_score from sklearn.metrics
____
# Extract the best estimator
best_model = ____
# Predict the test set probabilities of the positive class
y_pred_proba = ____
# Compute test_roc_auc
test_roc_auc = ____
# Print test_roc_auc
print('Test set ROC AUC score: {:.3f}'.format(test_roc_auc))