1. Apprendre
  2. /
  3. Cours
  4. /
  5. Machine Learning avec des modèles à base d'arbres en Python

Connected

Exercice

Évaluer l'arbre optimal

Dans cet exercice, vous allez évaluer le score ROC AUC sur l'ensemble de test du meilleur modèle de grid_dt.

Pour y arriver, vous déterminerez d'abord la probabilité d'obtenir l'étiquette positive pour chaque observation de l'ensemble de test. Vous pouvez utiliser la méthode predict_proba() d'un classificateur scikit-learn pour calculer un tableau 2D contenant, par colonnes respectives, les probabilités des étiquettes de classe négative et positive.

Le jeu de données est déjà chargé et préparé pour vous (les variables numériques sont normalisées) ; il est séparé en 80 % entraînement et 20 % test. X_test, y_test sont disponibles dans votre espace de travail. De plus, nous avons aussi chargé l'objet GridSearchCV entraîné grid_dt que vous avez instancié dans l'exercice précédent. Notez que grid_dt a été entraîné comme suit :

grid_dt.fit(X_train, y_train)

Instructions

100 XP
  • Importez roc_auc_score depuis sklearn.metrics.

  • Extrayez l'attribut .best_estimator_ de grid_dt et assignez-le à best_model.

  • Prédisez, pour l'ensemble de test, les probabilités d'obtenir la classe positive y_pred_proba.

  • Calculez le score ROC AUC sur l'ensemble de test test_roc_auc de best_model.