Buat dua himpunan holdout
Baru-baru ini Anda membuat model random forest sederhana untuk memprediksi kemenangan permainan Tic-Tac-Toe untuk atasan Anda, dan atas permintaannya, Anda tidak melakukan penalaan parameter. Sayangnya, akurasi keseluruhan model terlalu rendah untuk standarnya. Kali ini, beliau meminta Anda berfokus pada kinerja model.
Sebelum mulai menguji berbagai model dan set parameter, Anda perlu membagi data menjadi himpunan data pelatihan, validasi, dan pengujian. Ingat bahwa setelah membagi data menjadi himpunan pelatihan dan pengujian, himpunan validasi dibuat dengan membagi himpunan pelatihan.
Himpunan data X dan y telah dimuat untuk Anda gunakan.
Latihan ini merupakan bagian dari kursus
Validasi Model di Python
Instruksi latihan
- Buat himpunan data sementara dan himpunan data pengujian (
X_test,y_test). Gunakan 20% dari keseluruhan data untuk himpunan data pengujian. - Dengan menggunakan himpunan data sementara (
X_temp,y_temp), buat himpunan data pelatihan (X_train,y_train) dan validasi (X_val,y_val). - Gunakan 25% dari data sementara untuk himpunan data validasi.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____ =\
train_test_split(X, y, ____=____, random_state=1111)
# Create the final training and validation datasets
____, ____, ____, ____ =\
train_test_split(X_temp, y_temp, ____=____, random_state=1111)