Regularisasi
Regularisasi adalah proses menambahkan informasi ke dalam model untuk mencegah overfitting. Hal ini penting untuk meningkatkan metrik evaluasi yang Anda lihat sebelumnya di bab ini. Pada latihan ini, Anda akan memvariasikan parameter kedalaman maksimum pada decision tree untuk melihat bagaimana hasil klasifikasi terpengaruh.
X_train, y_train, X_test, y_test tersedia di workspace Anda. pandas sebagai pd, numpy sebagai np, dan sklearn juga tersedia di workspace Anda. Selain itu, confusion_matrix(), precision_score(), dan recall_score() dari sklearn.metrics tersedia.
Latihan ini adalah bagian dari kursus
Memprediksi CTR dengan Machine Learning di Python
Petunjuk latihan
- Buat beberapa decision tree dengan memvariasikan kedalaman maksimum tiap tree.
- Untuk setiap tree, latih dan hasilkan prediksi pada data pengujian.
- Evaluasi confusion matrix, precision, dan recall untuk setiap tree.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Iterate over different levels of max depth
for max_depth_val in [2, 3, 5, 10, 15, 20]:
# Create and fit model
clf = ____(____ = max_depth_val)
print("Evaluating tree with max_depth = %s" %(max_depth_val))
y_pred = clf.fit(____, ____).predict(____)
# Evaluate confusion matrix, precision, recall
print("Confusion matrix: ")
print(____(y_test, y_pred))
prec = ____(____, ____, average = 'weighted')
recall = ____(____, ____, average = 'weighted')
print("Precision: %s, Recall: %s" %(prec, recall))