Membagi data karyawan
Overfitting pada himpunan data adalah masalah umum dalam analitik. Ini terjadi ketika model bekerja baik pada himpunan data tempat model dikembangkan, tetapi gagal melakukan generalisasi di luar itu.
Train/test split diterapkan untuk memastikan kemampuan generalisasi model: Anda mengembangkan model menggunakan sampel pelatihan dan mencobanya pada sampel pengujian di tahap berikutnya.
Dalam latihan ini, Anda akan membagi target dan features ke dalam himpunan train dan test dengan rasio masing-masing 75%/25%.
Latihan ini adalah bagian dari kursus
Analitik SDM: Memprediksi Perputaran Karyawan dengan Python
Petunjuk latihan
- Impor
train_test_splitdari modulsklearn.model_selection - Gunakan
train_test_split()untuk membagi himpunan data Anda menjadi himpunan pelatihan dan pengujian - Alokasikan 25% observasi Anda ke himpunan pengujian
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____
# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)