Évaluer l'arbre optimal
Dans cet exercice, vous évaluerez le score de l'ensemble de test ROC AUC du modèle optimal de grid_dt.
Pour ce faire, vous devez d'abord déterminer la probabilité d'obtenir l'étiquette positive pour chaque observation de l'ensemble de test. Vous pouvez utiliser la méthodepredict_proba() d'un classificateur sklearn pour calculer un tableau 2D contenant les probabilités des étiquettes négatives et positives respectivement le long des colonnes.
L'ensemble de données est déjà chargé et traité pour vous (les caractéristiques numériques sont normalisées) ; il est divisé en 80 % de formation et 20 % de test. X_test Pour plus d'informations, consultez le site y_test qui est disponible dans votre espace de travail. En outre, nous avons également chargé l'objet GridSearchCV formé grid_dt que vous avez instancié dans l'exercice précédent. Notez que grid_dt a été formé comme suit :
grid_dt.fit(X_train, y_train)
Cet exercice fait partie du cours
Apprentissage automatique avec des modèles arborescents en Python
Instructions
Importez
roc_auc_scoreà partir desklearn.metrics.Extrayez l'attribut
.best_estimator_degrid_dtet attribuez-le àbest_model.Prédire les probabilités d'obtention de la classe positive de l'ensemble de test
y_pred_proba.Calculez l'ensemble de test ROC AUC score
test_roc_aucdebest_model.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import roc_auc_score from sklearn.metrics
____
# Extract the best estimator
best_model = ____
# Predict the test set probabilities of the positive class
y_pred_proba = ____
# Compute test_roc_auc
test_roc_auc = ____
# Print test_roc_auc
print('Test set ROC AUC score: {:.3f}'.format(test_roc_auc))