Evaluiere den optimalen Baum
In dieser Übung bewertest du die Punktzahl der Testmenge ROC AUC des optimalen Modells von grid_dt
.
Dazu bestimmst du zunächst die Wahrscheinlichkeit, dass du für jede Beobachtung der Testmenge das positive Label erhältst. Du kannst die Methodepredict_proba()
eines sklearn-Klassifikators verwenden, um ein 2D-Array zu berechnen, das die Wahrscheinlichkeiten der negativen bzw. positiven Klassenlabels entlang der Spalten enthält.
Der Datensatz ist bereits für dich geladen und verarbeitet (numerische Merkmale sind standardisiert); er ist in 80% Training und 20% Test aufgeteilt. X_test
y_test
sind in deinem Arbeitsbereich verfügbar. Außerdem haben wir das trainierte GridSearchCV
Objekt grid_dt
geladen, das du in der vorherigen Übung instanziiert hast. Beachte, dass grid_dt
wie folgt trainiert wurde:
grid_dt.fit(X_train, y_train)
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit baumbasierten Modellen in Python
Anleitung zur Übung
Importiere
roc_auc_score
vonsklearn.metrics
.Extrahiere das Attribut
.best_estimator_
ausgrid_dt
und weise esbest_model
zu.Sage die Wahrscheinlichkeiten für die positive Klasse der Testmenge
y_pred_proba
voraus.Berechne die Punktzahl der Testmenge ROC AUC
test_roc_auc
vonbest_model
.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import roc_auc_score from sklearn.metrics
____
# Extract the best estimator
best_model = ____
# Predict the test set probabilities of the positive class
y_pred_proba = ____
# Compute test_roc_auc
test_roc_auc = ____
# Print test_roc_auc
print('Test set ROC AUC score: {:.3f}'.format(test_roc_auc))