Den optimalen Baum auswerten
In dieser Übung bewertest du den ROC-AUC-Score auf dem Testset für das optimale Modell von grid_dt.
Dafür bestimmst du zunächst die Wahrscheinlichkeit, für jede Beobachtung im Testset das positive Label zu erhalten. Mit der Methode predict_proba() eines sklearn-Klassifikators kannst du ein 2D-Array berechnen, das spaltenweise die Wahrscheinlichkeiten für die negative bzw. positive Klasse enthält.
Der Datensatz ist bereits für dich geladen und aufbereitet (numerische Merkmale sind standardisiert); er ist in 80 % Training und 20 % Test aufgeteilt. X_test, y_test stehen in deiner Arbeitsumgebung zur Verfügung. Zusätzlich haben wir das trainierte GridSearchCV-Objekt grid_dt geladen, das du in der vorherigen Übung erstellt hast. Beachte, dass grid_dt wie folgt trainiert wurde:
grid_dt.fit(X_train, y_train)
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit baumbasierten Modellen in Python
Anleitung zur Übung
Importiere
roc_auc_scoreaussklearn.metrics.Extrahiere das Attribut
.best_estimator_ausgrid_dtund weise esbest_modelzu.Sage die Testset-Wahrscheinlichkeiten für die positive Klasse in
y_pred_probavoraus.Berechne den ROC-AUC-Score auf dem Testset
test_roc_aucvonbest_model.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import roc_auc_score from sklearn.metrics
____
# Extract the best estimator
best_model = ____
# Predict the test set probabilities of the positive class
y_pred_proba = ____
# Compute test_roc_auc
test_roc_auc = ____
# Print test_roc_auc
print('Test set ROC AUC score: {:.3f}'.format(test_roc_auc))