K-fold Terstratifikasi

Seperti yang baru saja Anda lihat, distribusi variabel target antar fold cukup berbeda karena pemisahan acak. Ini tidak krusial untuk kompetisi yang satu ini, tetapi dapat menjadi masalah pada kompetisi klasifikasi dengan variabel target yang sangat tidak seimbang.

Untuk mengatasinya, mari terapkan strategi K-fold terstratifikasi dengan stratifikasi pada variabel target. DataFrame train sudah tersedia di ruang kerja Anda.

Latihan ini merupakan bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

Instruksi latihan

Buat objek StratifiedKFold dengan 3 fold dan pengacakan.
Lakukan iterasi pada setiap split menggunakan objek str_kf. Stratifikasi didasarkan pada kolom "interest_level".
Untuk setiap split, pilih fold pelatihan dan pengujian menggunakan train_index dan test_index.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import StratifiedKFold
from sklearn.model_selection import StratifiedKFold

# Create a StratifiedKFold object
str_kf = ____(n_splits=____, shuffle=____, random_state=123)

# Loop through each split
fold = 0
for train_index, test_index in ____.____(train, train['interest_level']):
    # Obtain training and testing folds
    cv_train, cv_test = ____.iloc[____], ____.iloc[____]
    print('Fold: {}'.format(fold))
    print('CV train shape: {}'.format(cv_train.shape))
    print('Medium interest listings in CV train: {}\n'.format(sum(cv_train.interest_level == 'medium')))
    fold += 1

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Pada bab pertama ini, Anda akan mengenal proses kompetisi Kaggle. Anda akan melatih sebuah model dan menyiapkan berkas csv yang siap dikirimkan. Anda akan mempelajari perbedaan antara pembagian uji Public dan Private, serta cara mencegah overfitting.

Exercise 1: Gambaran umum kompetisi Exercise 2: Menjelajah data train Exercise 3: Jelajahi data test Exercise 4: Siapkan kiriman pertama Anda Exercise 5: Menentukan jenis permasalahan Exercise 6: Latih model sederhana Exercise 7: Siapkan sebuah submission Exercise 8: Papan peringkat Public vs Private Exercise 9: Model mana yang overfitting?Exercise 10: Latih model XGBoost Exercise 11: Menjelajahi overfitting pada XGBoost

Sekarang setelah Anda memahami dasar-dasar kompetisi Kaggle, Anda akan mempelajari cara menelaah persoalan spesifik yang dihadapi. Anda akan berlatih EDA dan menetapkan strategi validasi lokal yang tepat. Anda juga akan mempelajari tentang kebocoran data.

Exercise 1: Memahami masalah Exercise 2: Pahami jenis permasalahan Exercise 3: Menetapkan metrik kompetisi Exercise 4: EDA Awal Exercise 5: Statistik EDA Exercise 6: Plot EDA I Exercise 7: Plot EDA II Exercise 8: Validasi lokal Exercise 9: K-fold cross-validation Exercise 10: K-fold Terstratifikasi

Latihan Saat Ini

Exercise 11: Penggunaan validasi Exercise 12: Time K-fold Exercise 13: Skor validasi keseluruhan

Kini Anda akan mengenal berbagai jenis fitur. Anda akan memodifikasi fitur yang ada dan membuat yang baru. Selain itu, Anda akan menangani data hilang dengan tepat.

Exercise 1: Rekayasa fitur Exercise 2: Fitur aritmetika Exercise 3: Fitur tanggal Exercise 4: Fitur kategorikal Exercise 5: Pengodean label Exercise 6: One-Hot encoding Exercise 7: Target encoding Exercise 8: Pengodean target rata-rata Exercise 9: K-fold cross-validation Exercise 10: Melampaui klasifikasi biner Exercise 11: Data hilang Exercise 12: Temukan data hilang Exercise 13: Imputasi data hilang

Saatnya menyatukan semuanya dan membangun beberapa model! Pada bab terakhir ini, Anda akan membangun model dasar sebelum menyetel beberapa hiperparameter dan meningkatkan hasil dengan ansambel. Anda kemudian akan mendapatkan beberapa kiat dan trik akhir untuk membantu Anda berkompetisi dengan lebih efektif.

Exercise 1: Model baseline Exercise 2: Replikasi skor validasi Exercise 3: Baseline berbasis tanggal Exercise 4: Baseline berbasis gradient boosting Exercise 5: Penyetelan hyperparameter Exercise 6: Pencarian grid Exercise 7: Pencarian grid 2D Exercise 8: Ensembling model Exercise 9: Blending model Exercise 10: Model stacking I Exercise 11: Model stacking II Exercise 12: Tips terakhir Exercise 13: Menguji ide dari forum Kaggle Exercise 14: Pilih kiriman final Exercise 15: Pemikiran akhir