Menjelajahi overfitting pada XGBoost

Setelah melatih 3 model XGBoost dengan kedalaman maksimum yang berbeda, sekarang Anda akan mengevaluasi kualitasnya. Untuk itu, Anda akan mengukur kualitas setiap model pada data train dan data test. Seperti yang Anda ketahui, data train adalah data yang digunakan untuk melatih model. Data test adalah data penjualan bulan berikutnya yang belum pernah dilihat oleh model.

Tujuan latihan ini adalah menentukan apakah ada model yang mengalami overfitting. Untuk mengukur kualitas model, Anda akan menggunakan Mean Squared Error (MSE). Metrik ini tersedia di sklearn.metrics sebagai fungsi mean_squared_error() yang menerima dua argumen: nilai sebenarnya dan nilai prediksi.

DataFrame train dan test beserta 3 model yang sudah dilatih (xg_depth_2, xg_depth_8, xg_depth_15) tersedia di workspace Anda.

Latihan ini merupakan bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

Instruksi latihan

Buat prediksi untuk setiap model pada data train dan data test.
Hitung MSE antara nilai sebenarnya dan prediksi Anda untuk data train dan data test.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

from sklearn.metrics import mean_squared_error

dtrain = xgb.DMatrix(data=train[['store', 'item']])
dtest = xgb.DMatrix(data=test[['store', 'item']])

# For each of 3 trained models
for model in [xg_depth_2, xg_depth_8, xg_depth_15]:
    # Make predictions
    train_pred = model.____(dtrain)     
    test_pred = model.____(dtest)          
    
    # Calculate metrics
    mse_train = ____(train['sales'], train_pred)                  
    mse_test = ____(test['sales'], test_pred)
    print('MSE Train: {:.3f}. MSE Test: {:.3f}'.format(mse_train, mse_test))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Pada bab pertama ini, Anda akan mengenal proses kompetisi Kaggle. Anda akan melatih sebuah model dan menyiapkan berkas csv yang siap dikirimkan. Anda akan mempelajari perbedaan antara pembagian uji Public dan Private, serta cara mencegah overfitting.

Exercise 1: Gambaran umum kompetisi Exercise 2: Menjelajah data train Exercise 3: Jelajahi data test Exercise 4: Siapkan kiriman pertama Anda Exercise 5: Menentukan jenis permasalahan Exercise 6: Latih model sederhana Exercise 7: Siapkan sebuah submission Exercise 8: Papan peringkat Public vs Private Exercise 9: Model mana yang overfitting?Exercise 10: Latih model XGBoost Exercise 11: Menjelajahi overfitting pada XGBoost

Latihan Saat Ini

Sekarang setelah Anda memahami dasar-dasar kompetisi Kaggle, Anda akan mempelajari cara menelaah persoalan spesifik yang dihadapi. Anda akan berlatih EDA dan menetapkan strategi validasi lokal yang tepat. Anda juga akan mempelajari tentang kebocoran data.

Exercise 1: Memahami masalah Exercise 2: Pahami jenis permasalahan Exercise 3: Menetapkan metrik kompetisi Exercise 4: EDA Awal Exercise 5: Statistik EDA Exercise 6: Plot EDA I Exercise 7: Plot EDA II Exercise 8: Validasi lokal Exercise 9: K-fold cross-validation Exercise 10: K-fold Terstratifikasi Exercise 11: Penggunaan validasi Exercise 12: Time K-fold Exercise 13: Skor validasi keseluruhan

Kini Anda akan mengenal berbagai jenis fitur. Anda akan memodifikasi fitur yang ada dan membuat yang baru. Selain itu, Anda akan menangani data hilang dengan tepat.

Exercise 1: Rekayasa fitur Exercise 2: Fitur aritmetika Exercise 3: Fitur tanggal Exercise 4: Fitur kategorikal Exercise 5: Pengodean label Exercise 6: One-Hot encoding Exercise 7: Target encoding Exercise 8: Pengodean target rata-rata Exercise 9: K-fold cross-validation Exercise 10: Melampaui klasifikasi biner Exercise 11: Data hilang Exercise 12: Temukan data hilang Exercise 13: Imputasi data hilang

Saatnya menyatukan semuanya dan membangun beberapa model! Pada bab terakhir ini, Anda akan membangun model dasar sebelum menyetel beberapa hiperparameter dan meningkatkan hasil dengan ansambel. Anda kemudian akan mendapatkan beberapa kiat dan trik akhir untuk membantu Anda berkompetisi dengan lebih efektif.

Exercise 1: Model baseline Exercise 2: Replikasi skor validasi Exercise 3: Baseline berbasis tanggal Exercise 4: Baseline berbasis gradient boosting Exercise 5: Penyetelan hyperparameter Exercise 6: Pencarian grid Exercise 7: Pencarian grid 2D Exercise 8: Ensembling model Exercise 9: Blending model Exercise 10: Model stacking I Exercise 11: Model stacking II Exercise 12: Tips terakhir Exercise 13: Menguji ide dari forum Kaggle Exercise 14: Pilih kiriman final Exercise 15: Pemikiran akhir