Buat dua himpunan holdout
Baru-baru ini Anda membuat model random forest sederhana untuk memprediksi kemenangan permainan Tic-Tac-Toe untuk atasan Anda, dan atas permintaannya, Anda tidak melakukan penalaan parameter. Sayangnya, akurasi keseluruhan model terlalu rendah untuk standarnya. Kali ini, beliau meminta Anda berfokus pada kinerja model.
Sebelum mulai menguji berbagai model dan set parameter, Anda perlu membagi data menjadi himpunan data pelatihan, validasi, dan pengujian. Ingat bahwa setelah membagi data menjadi himpunan pelatihan dan pengujian, himpunan validasi dibuat dengan membagi himpunan pelatihan.
Himpunan data X dan y telah dimuat untuk Anda gunakan.
Latihan ini adalah bagian dari kursus
Validasi Model di Python
Petunjuk latihan
- Buat himpunan data sementara dan himpunan data pengujian (
X_test,y_test). Gunakan 20% dari keseluruhan data untuk himpunan data pengujian. - Dengan menggunakan himpunan data sementara (
X_temp,y_temp), buat himpunan data pelatihan (X_train,y_train) dan validasi (X_val,y_val). - Gunakan 25% dari data sementara untuk himpunan data validasi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____ =\
train_test_split(X, y, ____=____, random_state=1111)
# Create the final training and validation datasets
____, ____, ____, ____ =\
train_test_split(X_temp, y_temp, ____=____, random_state=1111)