MulaiMulai sekarang secara gratis

Buat dua himpunan holdout

Baru-baru ini Anda membuat model random forest sederhana untuk memprediksi kemenangan permainan Tic-Tac-Toe untuk atasan Anda, dan atas permintaannya, Anda tidak melakukan penalaan parameter. Sayangnya, akurasi keseluruhan model terlalu rendah untuk standarnya. Kali ini, beliau meminta Anda berfokus pada kinerja model.

Sebelum mulai menguji berbagai model dan set parameter, Anda perlu membagi data menjadi himpunan data pelatihan, validasi, dan pengujian. Ingat bahwa setelah membagi data menjadi himpunan pelatihan dan pengujian, himpunan validasi dibuat dengan membagi himpunan pelatihan.

Himpunan data X dan y telah dimuat untuk Anda gunakan.

Latihan ini adalah bagian dari kursus

Validasi Model di Python

Lihat Kursus

Petunjuk latihan

  • Buat himpunan data sementara dan himpunan data pengujian (X_test, y_test). Gunakan 20% dari keseluruhan data untuk himpunan data pengujian.
  • Dengan menggunakan himpunan data sementara (X_temp, y_temp), buat himpunan data pelatihan (X_train, y_train) dan validasi (X_val, y_val).
  • Gunakan 25% dari data sementara untuk himpunan data validasi.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____  =\
    train_test_split(X, y, ____=____, random_state=1111)

# Create the final training and validation datasets
____, ____, ____, ____ =\
    train_test_split(X_temp, y_temp, ____=____, random_state=1111)
Edit dan Jalankan Kode