Buat dua himpunan holdout

Baru-baru ini Anda membuat model random forest sederhana untuk memprediksi kemenangan permainan Tic-Tac-Toe untuk atasan Anda, dan atas permintaannya, Anda tidak melakukan penalaan parameter. Sayangnya, akurasi keseluruhan model terlalu rendah untuk standarnya. Kali ini, beliau meminta Anda berfokus pada kinerja model.

Sebelum mulai menguji berbagai model dan set parameter, Anda perlu membagi data menjadi himpunan data pelatihan, validasi, dan pengujian. Ingat bahwa setelah membagi data menjadi himpunan pelatihan dan pengujian, himpunan validasi dibuat dengan membagi himpunan pelatihan.

Himpunan data X dan y telah dimuat untuk Anda gunakan.

Latihan ini merupakan bagian dari kursus

Validasi Model di Python

Instruksi latihan

Buat himpunan data sementara dan himpunan data pengujian (X_test, y_test). Gunakan 20% dari keseluruhan data untuk himpunan data pengujian.
Dengan menggunakan himpunan data sementara (X_temp, y_temp), buat himpunan data pelatihan (X_train, y_train) dan validasi (X_val, y_val).
Gunakan 25% dari data sementara untuk himpunan data validasi.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____  =\
    train_test_split(X, y, ____=____, random_state=1111)

# Create the final training and validation datasets
____, ____, ____, ____ =\
    train_test_split(X_temp, y_temp, ____=____, random_state=1111)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Validasi Model di Python

SkillTag.level.intermediateSkillTag.label

4.9+

Mulai Kursus Gratis

Sebelum kita dapat memvalidasi model, kita perlu memahami cara membuat dan menggunakannya. Bab ini memberikan pengantar untuk menjalankan model regresi dan klasifikasi di scikit-learn. Landasan pembangunan model ini akan kita gunakan di seluruh bab berikutnya.

Exercise 1: Pengantar validasi model Exercise 2: Langkah-langkah pemodelan Exercise 3: Data yang pernah vs. belum pernah dilihat Exercise 4: Model regresi Exercise 5: Atur parameter dan latih model Exercise 6: Tingkat kepentingan fitur Exercise 7: Model klasifikasi Exercise 8: Prediksi klasifikasi Exercise 9: Menggunakan kembali parameter model Exercise 10: Klasifikator random forest

Bab ini berfokus pada dasar-dasar validasi model. Mulai dari membagi data menjadi himpunan data pelatihan, validasi, dan pengujian, hingga membangun pemahaman tentang trade-off bias-varian, kita membangun fondasi untuk teknik validasi K-Fold dan Leave-One-Out yang dipraktikkan di bab tiga.

Exercise 1: Membuat himpunan data train, test, dan validation Exercise 2: Buat satu holdout set Exercise 3: Buat dua himpunan holdout

Latihan Saat Ini

Exercise 4: Mengapa menggunakan holdout set Exercise 5: Metrik akurasi: model regresi Exercise 6: Mean absolute error Exercise 7: Mean squared error Exercise 8: Kinerja pada subset data Exercise 9: Metrik klasifikasi Exercise 10: Confusion matrix Exercise 11: Matriks kebingungan, lagi Exercise 12: Precision vs. recall Exercise 13: Pertukaran bias-varians Exercise 14: Galat akibat under/overfitting Exercise 15: Apakah saya underfitting?

Holdout set merupakan awal yang baik untuk validasi model. Namun, menggunakan satu set latih dan uji saja sering kali tidak cukup. Cross-validation dianggap sebagai standar emas dalam memvalidasi kinerja model dan hampir selalu digunakan saat menala hyper-parameter model. Bab ini berfokus pada melakukan cross-validation untuk memvalidasi kinerja model.

Exercise 1: Masalah pada holdout set Exercise 2: Dua sampel Exercise 3: Potensi masalah Exercise 4: Cross-validation Exercise 5: KFold() di scikit-learn Exercise 6: Menggunakan indeks KFold Exercise 7: cross_val_score() dari sklearn Exercise 8: Metode-metode scikit-learn Exercise 9: Menerapkan cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Kapan menggunakan LOOCV Exercise 12: Leave-one-out-cross-validation

Tiga bab pertama berfokus pada teknik validasi model. Pada bab 4 kita menerapkan teknik-teknik ini, khususnya cross-validation, sambil mempelajari penalaan hyperparameter. Pada akhirnya, validasi model memungkinkan proses penalaan dan membantu kita memilih model terbaik secara keseluruhan.

Exercise 1: Pengantar hyperparameter tuning Exercise 2: Membuat Hyperparameter Exercise 3: Menjalankan model menggunakan rentang Exercise 4: RandomizedSearchCV Exercise 5: Mempersiapkan RandomizedSearch Exercise 6: Menerapkan RandomizedSearchCV Exercise 7: Memilih model final Anda Exercise 8: Akurasi klasifikasi terbaik Exercise 9: Memilih model precision terbaik Exercise 10: Kursus selesai!