Membatasi ukuran sampel
Metode lain untuk mencegah overfitting adalah menentukan jumlah minimal observasi yang diperlukan untuk menumbuhkan sebuah leaf (atau node) dalam Decision Tree.
Dalam latihan ini, Anda akan:
- menetapkan batas minimum ini menjadi 100
- memadankan model baru ke data karyawan
- menelaah hasil prediksi pada data latih dan data uji
Variabel features_train, target_train, features_test, dan target_test sudah tersedia di ruang kerja Anda.
Latihan ini merupakan bagian dari kursus
Analitik SDM: Memprediksi Perputaran Karyawan dengan Python
Instruksi latihan
- Inisialisasi
DecisionTreeClassifierdan tetapkan batas minimum leaf menjadi 100 observasi - Padankan model decision tree ke data latih.
- Periksa akurasi prediksi pada data latih dan data uji.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)
# Fit the model
____.fit(features_train,____)
# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)
# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)