Cross-validation menggunakan sklearn

Seperti dijelaskan di Bab 2, overfitting pada himpunan data adalah masalah umum dalam analitik. Ini terjadi ketika sebuah model mempelajari data terlalu rinci: performanya sangat baik pada himpunan data tempat model dilatih, tetapi gagal melakukan generalisasi di luar itu.

Meskipun teknik train/test split yang Anda pelajari di Bab 2 memastikan model tidak melakukan overfitting pada data latih, penyetelan hyperparameter dapat menyebabkan overfitting pada komponen uji, karena proses ini menyesuaikan model agar memperoleh hasil prediksi terbaik pada data uji. Oleh karena itu, disarankan untuk memvalidasi model pada beberapa himpunan uji yang berbeda. K-fold cross-validation memungkinkan kita melakukan hal ini:

membagi himpunan data menjadi data latih dan data uji
melatih model, membuat prediksi, dan menghitung skor (Anda dapat menentukan apakah ingin accuracy, precision, recall, dan sebagainya)
mengulangi proses tersebut total sebanyak k kali
menghasilkan rata-rata dari 10 skor

Dalam latihan ini, Anda akan menggunakan Cross Validation pada himpunan data kita, dan mengevaluasi hasil dengan fungsi cross_val_score.

Latihan ini merupakan bagian dari kursus

Analitik SDM: Memprediksi Perputaran Karyawan dengan Python

Instruksi latihan

Impor fungsi untuk menerapkan cross-validation, cross_val_score(), dari modul sklearn.model_selection.
Cetak skor cross-validation untuk model Anda, dengan menentukan 10 lipatan melalui hyperparameter cv.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import the function for implementing cross validation
from sklearn.model_selection import ____

# Use that function to print the cross validation score for 10 folds
print(____(model,features,target,____=10))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Analitik SDM: Memprediksi Perputaran Karyawan dengan Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Dalam bab ini Anda akan mempelajari masalah yang ditangani oleh analitik SDM, serta mengeksplorasi contoh himpunan data SDM yang akan dianalisis lebih lanjut. Anda akan mendeskripsikan dan memvisualisasikan beberapa variabel kunci, mentransformasikan dan memanipulasi himpunan data agar siap untuk analitik.

Exercise 1: Pendahuluan dan ikhtisar Exercise 2: Menemukan variabel kategorikal Exercise 3: Mengamati variabel kategorikal Exercise 4: Mengonversi variabel kategorikal Exercise 5: Meng-encode kategori Exercise 6: Membuat dummy Exercise 7: Dummy trap Exercise 8: Statistika deskriptif Exercise 9: Korelasi dalam data karyawan Exercise 10: Persentase karyawan yang churn

Bab ini memperkenalkan salah satu teknik klasifikasi paling populer: Decision Tree. Anda akan menggunakannya untuk mengembangkan algoritme yang memprediksi perputaran karyawan.

Exercise 1: Membagi data Exercise 2: Memisahkan Target dan Fitur Exercise 3: Membagi data karyawan Exercise 4: Pengantar klasifikasi Decision Tree Exercise 5: Menghitung indeks Gini Exercise 6: Membagi pohon Exercise 7: Memprediksi churn karyawan menggunakan decision tree Exercise 8: Melatih tree pada data karyawan Exercise 9: Memeriksa akurasi prediksi Exercise 10: Interpretasi pohon keputusan Exercise 11: Mengekspor pohon Exercise 12: Interpretasi hasil

Di sini, Anda akan mempelajari cara mengevaluasi sebuah model dan memahami seberapa “baik” model tersebut. Anda akan membandingkan berbagai pohon untuk memilih yang terbaik di antaranya.

Exercise 1: Menyetel pengklasifikasi turnover karyawan Exercise 2: Memangkas pohon Exercise 3: Membatasi ukuran sampel Exercise 4: Mengevaluasi model Exercise 5: Menafsirkan metrik akurasi Exercise 6: Menghitung metrik akurasi: precision Exercise 7: Menghitung metrik akurasi: recall Exercise 8: Menargetkan karyawan yang keluar dan yang tetap Exercise 9: Menghitung skor ROC/AUC Exercise 10: Ketidakseimbangan kelas Exercise 11: Menyeimbangkan kelas Exercise 12: Perbandingan model attrition karyawan

Di bab terakhir ini, Anda akan mempelajari cara menggunakan cross-validation untuk menghindari overfitting pada data pelatihan. Anda juga akan mempelajari cara mengetahui fitur mana yang berpengaruh dan mana yang dapat diabaikan. Terakhir, Anda akan menggunakan keterampilan baru ini untuk membangun Decision Tree yang kinerjanya lebih baik!

Exercise 1: Penyetelan hiperparameter Exercise 2: Cross-validation menggunakan sklearn

Latihan Saat Ini

Exercise 3: Menyiapkan parameter GridSearch Exercise 4: Menerapkan GridSearch Exercise 5: Fitur penting untuk memprediksi attrition Exercise 6: Menafsirkan tingkat kepentingan Exercise 7: Mengurutkan fitur penting Exercise 8: Memilih fitur penting Exercise 9: Kembangkan dan uji model terbaik Exercise 10: Pemikiran akhir