MulaiMulai sekarang secara gratis

Membagi data karyawan

Overfitting pada himpunan data adalah masalah umum dalam analitik. Ini terjadi ketika model bekerja baik pada himpunan data tempat model dikembangkan, tetapi gagal melakukan generalisasi di luar itu.

Train/test split diterapkan untuk memastikan kemampuan generalisasi model: Anda mengembangkan model menggunakan sampel pelatihan dan mencobanya pada sampel pengujian di tahap berikutnya.

Dalam latihan ini, Anda akan membagi target dan features ke dalam himpunan train dan test dengan rasio masing-masing 75%/25%.

Latihan ini adalah bagian dari kursus

Analitik SDM: Memprediksi Perputaran Karyawan dengan Python

Lihat Kursus

Petunjuk latihan

  • Impor train_test_split dari modul sklearn.model_selection
  • Gunakan train_test_split() untuk membagi himpunan data Anda menjadi himpunan pelatihan dan pengujian
  • Alokasikan 25% observasi Anda ke himpunan pengujian

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____

# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)
Edit dan Jalankan Kode