Evaluasi empat kategori
Confusion matrix adalah alat paling langsung untuk melihat empat kategori keluaran: true positive (TP), false positive (FP), true negative (TN), dan false negative (FN). Dalam latihan ini, Anda akan menggunakan classifier decision tree standar DecisionTreeClassifier() dari sklearn pada data klik contoh dan menghitung rincian keluaran berdasarkan keempat kategori tersebut.
Modul pandas tersedia sebagai pd di workspace Anda dan DataFrame contoh telah dimuat sebagai df. Fitur dimuat dalam X dan target dimuat dalam y untuk digunakan. Selain itu, DecisionTreeClassifier dari sklearn.tree tersedia.
Latihan ini adalah bagian dari kursus
Memprediksi CTR dengan Machine Learning di Python
Petunjuk latihan
- Dapatkan pembagian data pelatihan dan pengujian untuk
Xdany. - Definisikan classifier decision tree dan hasilkan prediksi
y_preddengan melakukan fit pada model. - Gunakan confusion matrix untuk mendapatkan jumlah setiap kategori keluaran, dengan
1sebagai positif (klik) dan0sebagai negatif (non-klik). - Contohnya: true negative adalah
[0,0]dan true positive adalah[1,1].
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Set up classifier using training data to predict test data
X_train, X_test, y_train, y_test = ____(
X, y, test_size = .2, random_state = 0)
clf = ____
y_pred = clf.____(X_train, y_train).____(X_test)
# Define confusion matrix and four categories
conf_matrix = ____(y_test, y_pred)
tn = conf_matrix[____][____]
fp = conf_matrix[____][____]
fn = conf_matrix[____][____]
tp = conf_matrix[____][____]
print("TN: %s, FP: %s, FN: %s, TP: %s" %(tn, fp, fn, tp))