Baseline
Een classifier beoordelen ten opzichte van een passende baseline is belangrijk. Dat geldt zeker voor onevenwichtige gegevenssets, zoals bij ad-click-through, omdat je met altijd de meerderheidsklasse kiezen makkelijk een hoge accuracy behaalt. In deze oefening simuleer je een baseline-classifier die altijd de meerderheidsklasse (geen klik) voorspelt en bekijk je de confusion matrix, plus de precision en recall.
X_train, y_train, X_test, y_test zijn beschikbaar in je workspace. pandas als pd, numpy als np en sklearn zijn ook beschikbaar in je workspace.
Deze oefening maakt deel uit van de cursus
CTR voorspellen met Machine Learning in Python
Oefeninstructies
- Maak
y_pred, een array met nullen met dezelfde lengte alsX_test, metnp.asarray(). - Print de resulterende confusion matrix.
- Haal de precision- en recall-scores op.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set up baseline predictions
y_pred = np.____([0 for x in range(len(X_test))])
# Look at confusion matrix
print("Confusion matrix: ")
print(____(y_test, y_pred))
# Check precision and recall
prec = ____(y_test, y_pred, average = 'weighted')
recall = ____(y_test, y_pred, average = 'weighted')
print("Precision: %s, Recall: %s" %(prec, recall))