Membagi data karyawan
Overfitting pada himpunan data adalah masalah umum dalam analitik. Ini terjadi ketika model bekerja baik pada himpunan data tempat model dikembangkan, tetapi gagal melakukan generalisasi di luar itu.
Train/test split diterapkan untuk memastikan kemampuan generalisasi model: Anda mengembangkan model menggunakan sampel pelatihan dan mencobanya pada sampel pengujian di tahap berikutnya.
Dalam latihan ini, Anda akan membagi target dan features ke dalam himpunan train dan test dengan rasio masing-masing 75%/25%.
Latihan ini merupakan bagian dari kursus
Analitik SDM: Memprediksi Perputaran Karyawan dengan Python
Instruksi latihan
- Impor
train_test_splitdari modulsklearn.model_selection - Gunakan
train_test_split()untuk membagi himpunan data Anda menjadi himpunan pelatihan dan pengujian - Alokasikan 25% observasi Anda ke himpunan pengujian
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____
# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)