Valutare quattro categorie
La matrice di confusione è lo strumento più diretto per osservare le quattro categorie di esiti: veri positivi (TP), falsi positivi (FP), veri negativi (TN) e falsi negativi (FN). In questo esercizio userai un classificatore ad albero decisionale standard DecisionTreeClassifier() di sklearn sui dati di esempio dei click e calcolerai la ripartizione degli esiti nelle quattro categorie.
Il modulo pandas è disponibile come pd nel tuo workspace e il DataFrame di esempio è caricato come df. Le feature sono caricate in X e il target è caricato in y per l’uso. Inoltre, DecisionTreeClassifier da sklearn.tree è disponibile.
Questo esercizio fa parte del corso
Prevedere il CTR con il Machine Learning in Python
Istruzioni dell'esercizio
- Ottieni le suddivisioni di training e test per
Xey. - Definisci un classificatore ad albero decisionale e genera le previsioni
y_predaddestrando il modello. - Usa la matrice di confusione per ottenere i conteggi per le categorie di ciascun esito, con
1che indica un positivo (click) e0che indica un negativo (non click). - Ad esempio: i veri negativi corrispondono a
[0,0]e i veri positivi a[1,1].
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Set up classifier using training data to predict test data
X_train, X_test, y_train, y_test = ____(
X, y, test_size = .2, random_state = 0)
clf = ____
y_pred = clf.____(X_train, y_train).____(X_test)
# Define confusion matrix and four categories
conf_matrix = ____(y_test, y_pred)
tn = conf_matrix[____][____]
fp = conf_matrix[____][____]
fn = conf_matrix[____][____]
tp = conf_matrix[____][____]
print("TN: %s, FP: %s, FN: %s, TP: %s" %(tn, fp, fn, tp))