Verder kijken dan alleen accuracy
In deze oefening ga je, om verder te kijken dan alleen accuracy, de AUC van de ROC-curve evalueren voor een eenvoudig decision tree-model. Denk eraan dat de baseline voor een willekeurige classifier een AUC van 0,5 is, dus je wilt een hogere score dan 0,5 behalen.
X is beschikbaar als de DataFrame met features, en y is beschikbaar als een DataFrame met doelwaarden. Zowel sklearn als pandas als pd zijn ook beschikbaar in je werkruimte.
We gebruiken deze setup om naar de AUC van onze ROC-curve te kijken.
Deze oefening maakt deel uit van de cursus
CTR voorspellen met Machine Learning in Python
Oefeninstructies
- Splits de data in training- en testsets.
- Fit de classifier met trainingsdata en maak voorspellingen voor testdata met
predict_proba()enpredict(). - Evalueer de AUC onder de ROC-curve met de functie
roc_curve()opy_testviaroc_curve(y_test, y_score[:, 1]).
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Training and testing
X_train, X_test, y_train, y_test = \
____(X, y, test_size = .2, random_state = 0)
# Create decision tree classifier
clf = DecisionTreeClassifier()
# Train classifier - predict probability score and label
y_score = clf.fit(____, ____).predict_proba(____)
y_pred = clf.fit(____, ____).predict(____)
# Get ROC curve metrics
fpr, tpr, thresholds = ____(____, y_score[:, 1])
roc_auc = auc(fpr, tpr)
print(roc_auc)