Aan de slagGa gratis aan de slag

Vier categorieën evalueren

De confusion matrix is het meest directe hulpmiddel om naar de vier categorieën uitkomsten te kijken: true positives (TP), false positives (FP), true negatives (TN) en false negatives (FN). In deze oefening gebruik je een standaard decision tree-classifier DecisionTreeClassifier() uit sklearn op de voorbeeldklikdata en bereken je de verdeling van uitkomsten over de vier categorieën.

De pandas-module is beschikbaar als pd in je werkruimte en de voorbeeld-DataFrame is geladen als df. De features zijn geladen in X en de target is geladen in y. Daarnaast is DecisionTreeClassifier uit sklearn.tree beschikbaar.

Deze oefening maakt deel uit van de cursus

CTR voorspellen met Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Maak de trainings- en testsplits voor X en y.
  • Definieer een decision tree-classifier en maak voorspellingen y_pred door het model te fitten.
  • Gebruik de confusion matrix om de tellingen te krijgen voor de categorieën van elke uitkomst, waarbij 1 een positief (klik) is en 0 een negatief (geen klik).
  • Bijvoorbeeld: true negatives staan op [0,0] en true positives op [1,1].

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Set up classifier using training data to predict test data
X_train, X_test, y_train, y_test = ____(
  X, y, test_size = .2, random_state = 0)
clf = ____
y_pred = clf.____(X_train, y_train).____(X_test) 

# Define confusion matrix and four categories
conf_matrix = ____(y_test, y_pred)
tn = conf_matrix[____][____]
fp = conf_matrix[____][____]
fn = conf_matrix[____][____]
tp = conf_matrix[____][____]

print("TN: %s, FP: %s, FN: %s, TP: %s" %(tn, fp, fn, tp))
Code bewerken en uitvoeren