Model stacking I

Sekarang saatnya melakukan stacking. Untuk menerapkan pendekatan stacking, Anda akan mengikuti 6 langkah yang telah kita bahas pada video sebelumnya:

Bagi data train menjadi dua bagian
Latih beberapa model pada Bagian 1
Buat prediksi pada Bagian 2
Buat prediksi pada data test
Latih model baru pada Bagian 2 dengan menggunakan prediksi sebagai fitur
Buat prediksi pada data test menggunakan model level ke-2

DataFrame train dan test sudah tersedia di ruang kerja Anda. features adalah daftar kolom yang akan digunakan untuk pelatihan pada data Bagian 1 dan juga telah tersedia di ruang kerja Anda. Nama variabel target adalah "fare_amount".

Latihan ini merupakan bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor

# Split train data into two parts
part_1, part_2 = ____(train, test_size=____, random_state=123)

# Train a Gradient Boosting model on Part 1
gb = GradientBoostingRegressor().____(____[features], ____.fare_amount)

# Train a Random Forest model on Part 1
rf = RandomForestRegressor().____(____[features], ____.fare_amount)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Pada bab pertama ini, Anda akan mengenal proses kompetisi Kaggle. Anda akan melatih sebuah model dan menyiapkan berkas csv yang siap dikirimkan. Anda akan mempelajari perbedaan antara pembagian uji Public dan Private, serta cara mencegah overfitting.

Exercise 1: Gambaran umum kompetisi Exercise 2: Menjelajah data train Exercise 3: Jelajahi data test Exercise 4: Siapkan kiriman pertama Anda Exercise 5: Menentukan jenis permasalahan Exercise 6: Latih model sederhana Exercise 7: Siapkan sebuah submission Exercise 8: Papan peringkat Public vs Private Exercise 9: Model mana yang overfitting?Exercise 10: Latih model XGBoost Exercise 11: Menjelajahi overfitting pada XGBoost

Sekarang setelah Anda memahami dasar-dasar kompetisi Kaggle, Anda akan mempelajari cara menelaah persoalan spesifik yang dihadapi. Anda akan berlatih EDA dan menetapkan strategi validasi lokal yang tepat. Anda juga akan mempelajari tentang kebocoran data.

Exercise 1: Memahami masalah Exercise 2: Pahami jenis permasalahan Exercise 3: Menetapkan metrik kompetisi Exercise 4: EDA Awal Exercise 5: Statistik EDA Exercise 6: Plot EDA I Exercise 7: Plot EDA II Exercise 8: Validasi lokal Exercise 9: K-fold cross-validation Exercise 10: K-fold Terstratifikasi Exercise 11: Penggunaan validasi Exercise 12: Time K-fold Exercise 13: Skor validasi keseluruhan

Kini Anda akan mengenal berbagai jenis fitur. Anda akan memodifikasi fitur yang ada dan membuat yang baru. Selain itu, Anda akan menangani data hilang dengan tepat.

Exercise 1: Rekayasa fitur Exercise 2: Fitur aritmetika Exercise 3: Fitur tanggal Exercise 4: Fitur kategorikal Exercise 5: Pengodean label Exercise 6: One-Hot encoding Exercise 7: Target encoding Exercise 8: Pengodean target rata-rata Exercise 9: K-fold cross-validation Exercise 10: Melampaui klasifikasi biner Exercise 11: Data hilang Exercise 12: Temukan data hilang Exercise 13: Imputasi data hilang

Saatnya menyatukan semuanya dan membangun beberapa model! Pada bab terakhir ini, Anda akan membangun model dasar sebelum menyetel beberapa hiperparameter dan meningkatkan hasil dengan ansambel. Anda kemudian akan mendapatkan beberapa kiat dan trik akhir untuk membantu Anda berkompetisi dengan lebih efektif.

Exercise 1: Model baseline Exercise 2: Replikasi skor validasi Exercise 3: Baseline berbasis tanggal Exercise 4: Baseline berbasis gradient boosting Exercise 5: Penyetelan hyperparameter Exercise 6: Pencarian grid Exercise 7: Pencarian grid 2D Exercise 8: Ensembling model Exercise 9: Blending model Exercise 10: Model stacking I

Latihan Saat Ini

Exercise 11: Model stacking II Exercise 12: Tips terakhir Exercise 13: Menguji ide dari forum Kaggle Exercise 14: Pilih kiriman final Exercise 15: Pemikiran akhir