Memangkas pohon
Overfitting adalah masalah klasik dalam analitik, terutama untuk algoritme decision tree. Setelah pohon tumbuh sepenuhnya, ia mungkin menghasilkan prediksi yang sangat akurat untuk sampel latih, tetapi gagal mencapai tingkat akurasi yang sama pada himpunan uji. Karena itu, pertumbuhan decision tree biasanya dikendalikan dengan:
- “Memangkas” pohon dan menetapkan batas kedalaman maksimum yang dapat dimiliki.
- Membatasi jumlah minimum observasi dalam satu daun pohon.
Dalam latihan ini, Anda akan:
- memangkas pohon dan membatasi pertumbuhan pohon hingga 5 tingkat kedalaman
- menyesuaikannya dengan data karyawan
- menguji hasil prediksi pada himpunan latih dan uji.
Variabel features_train, target_train, features_test, dan target_test sudah tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Analitik SDM: Memprediksi Perputaran Karyawan dengan Python
Petunjuk latihan
- Inisialisasi
DecisionTreeClassifierdengan membatasi kedalaman pohon hingga 5. - Latih model Decision Tree menggunakan
featuresdantargetpada himpunan data latih. - Periksa akurasi prediksi pada himpunan latih dan uji.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Initialize the DecisionTreeClassifier while limiting the depth of the tree to 5
model_depth_5 = DecisionTreeClassifier(____=5, random_state=42)
# Fit the model
____.fit(features_train,target_train)
# Print the accuracy of the prediction for the training set
print(____.____(features_train,target_train)*100)
# Print the accuracy of the prediction for the test set
print(model_depth_5.score(____,____)*100)