Vier categorieën evalueren
De confusion matrix is het meest directe hulpmiddel om naar de vier categorieën uitkomsten te kijken: true positives (TP), false positives (FP), true negatives (TN) en false negatives (FN). In deze oefening gebruik je een standaard decision tree-classifier DecisionTreeClassifier() uit sklearn op de voorbeeldklikdata en bereken je de verdeling van uitkomsten over de vier categorieën.
De pandas-module is beschikbaar als pd in je werkruimte en de voorbeeld-DataFrame is geladen als df. De features zijn geladen in X en de target is geladen in y. Daarnaast is DecisionTreeClassifier uit sklearn.tree beschikbaar.
Deze oefening maakt deel uit van de cursus
CTR voorspellen met Machine Learning in Python
Oefeninstructies
- Maak de trainings- en testsplits voor
Xeny. - Definieer een decision tree-classifier en maak voorspellingen
y_preddoor het model te fitten. - Gebruik de confusion matrix om de tellingen te krijgen voor de categorieën van elke uitkomst, waarbij
1een positief (klik) is en0een negatief (geen klik). - Bijvoorbeeld: true negatives staan op
[0,0]en true positives op[1,1].
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set up classifier using training data to predict test data
X_train, X_test, y_train, y_test = ____(
X, y, test_size = .2, random_state = 0)
clf = ____
y_pred = clf.____(X_train, y_train).____(X_test)
# Define confusion matrix and four categories
conf_matrix = ____(y_test, y_pred)
tn = conf_matrix[____][____]
fp = conf_matrix[____][____]
fn = conf_matrix[____][____]
tp = conf_matrix[____][____]
print("TN: %s, FP: %s, FN: %s, TP: %s" %(tn, fp, fn, tp))