KFold() di scikit-learn

Anda baru saja menjalankan kode rekan kerja yang membuat model random forest dan menghitung akurasi out-of-sample. Anda melihat bahwa kode rekan Anda tidak menyetel random state, dan kesalahan yang Anda temukan sama sekali berbeda dari yang dilaporkan rekan Anda.

Untuk mendapatkan perkiraan yang lebih baik tentang seberapa akurat model random forest ini pada data baru, Anda memutuskan untuk menghasilkan beberapa indeks untuk digunakan pada KFold cross-validation.

Latihan ini merupakan bagian dari kursus

Validasi Model di Python

Instruksi latihan

Panggil metode KFold() untuk membagi data menggunakan lima split, dengan pengacakan (shuffle), dan random state 1111.
Gunakan metode split() dari KFold pada X.
Cetak jumlah indeks pada daftar indeks train dan validation.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

from sklearn.model_selection import KFold

# Use KFold
kf = KFold(____, ____, ____)

# Create splits
splits = kf.____(____)

# Print the number of indices
for train_index, val_index in splits:
    print("Number of training indices: %s" % len(____))
    print("Number of validation indices: %s" % len(____))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Validasi Model di Python

SkillTag.level.intermediateSkillTag.label

4.9+

Mulai Kursus Gratis

Sebelum kita dapat memvalidasi model, kita perlu memahami cara membuat dan menggunakannya. Bab ini memberikan pengantar untuk menjalankan model regresi dan klasifikasi di scikit-learn. Landasan pembangunan model ini akan kita gunakan di seluruh bab berikutnya.

Exercise 1: Pengantar validasi model Exercise 2: Langkah-langkah pemodelan Exercise 3: Data yang pernah vs. belum pernah dilihat Exercise 4: Model regresi Exercise 5: Atur parameter dan latih model Exercise 6: Tingkat kepentingan fitur Exercise 7: Model klasifikasi Exercise 8: Prediksi klasifikasi Exercise 9: Menggunakan kembali parameter model Exercise 10: Klasifikator random forest

Bab ini berfokus pada dasar-dasar validasi model. Mulai dari membagi data menjadi himpunan data pelatihan, validasi, dan pengujian, hingga membangun pemahaman tentang trade-off bias-varian, kita membangun fondasi untuk teknik validasi K-Fold dan Leave-One-Out yang dipraktikkan di bab tiga.

Exercise 1: Membuat himpunan data train, test, dan validation Exercise 2: Buat satu holdout set Exercise 3: Buat dua himpunan holdout Exercise 4: Mengapa menggunakan holdout set Exercise 5: Metrik akurasi: model regresi Exercise 6: Mean absolute error Exercise 7: Mean squared error Exercise 8: Kinerja pada subset data Exercise 9: Metrik klasifikasi Exercise 10: Confusion matrix Exercise 11: Matriks kebingungan, lagi Exercise 12: Precision vs. recall Exercise 13: Pertukaran bias-varians Exercise 14: Galat akibat under/overfitting Exercise 15: Apakah saya underfitting?

Holdout set merupakan awal yang baik untuk validasi model. Namun, menggunakan satu set latih dan uji saja sering kali tidak cukup. Cross-validation dianggap sebagai standar emas dalam memvalidasi kinerja model dan hampir selalu digunakan saat menala hyper-parameter model. Bab ini berfokus pada melakukan cross-validation untuk memvalidasi kinerja model.

Exercise 1: Masalah pada holdout set Exercise 2: Dua sampel Exercise 3: Potensi masalah Exercise 4: Cross-validation Exercise 5: KFold() di scikit-learn

Latihan Saat Ini

Exercise 6: Menggunakan indeks KFold Exercise 7: cross_val_score() dari sklearn Exercise 8: Metode-metode scikit-learn Exercise 9: Menerapkan cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Kapan menggunakan LOOCV Exercise 12: Leave-one-out-cross-validation

Tiga bab pertama berfokus pada teknik validasi model. Pada bab 4 kita menerapkan teknik-teknik ini, khususnya cross-validation, sambil mempelajari penalaan hyperparameter. Pada akhirnya, validasi model memungkinkan proses penalaan dan membantu kita memilih model terbaik secara keseluruhan.

Exercise 1: Pengantar hyperparameter tuning Exercise 2: Membuat Hyperparameter Exercise 3: Menjalankan model menggunakan rentang Exercise 4: RandomizedSearchCV Exercise 5: Mempersiapkan RandomizedSearch Exercise 6: Menerapkan RandomizedSearchCV Exercise 7: Memilih model final Anda Exercise 8: Akurasi klasifikasi terbaik Exercise 9: Memilih model precision terbaik Exercise 10: Kursus selesai!