Blending model

Anda akan mulai membuat ensemble model dengan teknik blending.

Tujuan Anda adalah melatih 2 model berbeda pada data kompetisi New York City Taxi. Buat prediksi pada data uji, lalu gabungkan keduanya menggunakan rata-rata aritmetika sederhana.

DataFrame train dan test sudah tersedia di ruang kerja Anda. features adalah daftar kolom yang digunakan untuk pelatihan dan juga sudah tersedia. Nama variabel target adalah "fare_amount".

Latihan ini merupakan bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

Instruksi latihan

Latih model Gradient Boosting pada data train menggunakan daftar features, dan kolom "fare_amount" sebagai variabel target.
Latih model Random Forest dengan cara yang sama.
Buat prediksi pada data test menggunakan kedua model Gradient Boosting dan Random Forest.
Cari rata-rata dari prediksi kedua model.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor

# Train a Gradient Boosting model
gb = GradientBoostingRegressor().____(____[features], ____.fare_amount)

# Train a Random Forest model
rf = RandomForestRegressor().____(____[features], ____.fare_amount)

# Make predictions on the test data
test['gb_pred'] = ____.____(test[features])
test['rf_pred'] = ____.____(test[features])

# Find mean of model predictions
test['blend'] = (____[____] + ____[____]) / 2
print(test[['gb_pred', 'rf_pred', 'blend']].head(3))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Pada bab pertama ini, Anda akan mengenal proses kompetisi Kaggle. Anda akan melatih sebuah model dan menyiapkan berkas csv yang siap dikirimkan. Anda akan mempelajari perbedaan antara pembagian uji Public dan Private, serta cara mencegah overfitting.

Exercise 1: Gambaran umum kompetisi Exercise 2: Menjelajah data train Exercise 3: Jelajahi data test Exercise 4: Siapkan kiriman pertama Anda Exercise 5: Menentukan jenis permasalahan Exercise 6: Latih model sederhana Exercise 7: Siapkan sebuah submission Exercise 8: Papan peringkat Public vs Private Exercise 9: Model mana yang overfitting?Exercise 10: Latih model XGBoost Exercise 11: Menjelajahi overfitting pada XGBoost

Sekarang setelah Anda memahami dasar-dasar kompetisi Kaggle, Anda akan mempelajari cara menelaah persoalan spesifik yang dihadapi. Anda akan berlatih EDA dan menetapkan strategi validasi lokal yang tepat. Anda juga akan mempelajari tentang kebocoran data.

Exercise 1: Memahami masalah Exercise 2: Pahami jenis permasalahan Exercise 3: Menetapkan metrik kompetisi Exercise 4: EDA Awal Exercise 5: Statistik EDA Exercise 6: Plot EDA I Exercise 7: Plot EDA II Exercise 8: Validasi lokal Exercise 9: K-fold cross-validation Exercise 10: K-fold Terstratifikasi Exercise 11: Penggunaan validasi Exercise 12: Time K-fold Exercise 13: Skor validasi keseluruhan

Kini Anda akan mengenal berbagai jenis fitur. Anda akan memodifikasi fitur yang ada dan membuat yang baru. Selain itu, Anda akan menangani data hilang dengan tepat.

Exercise 1: Rekayasa fitur Exercise 2: Fitur aritmetika Exercise 3: Fitur tanggal Exercise 4: Fitur kategorikal Exercise 5: Pengodean label Exercise 6: One-Hot encoding Exercise 7: Target encoding Exercise 8: Pengodean target rata-rata Exercise 9: K-fold cross-validation Exercise 10: Melampaui klasifikasi biner Exercise 11: Data hilang Exercise 12: Temukan data hilang Exercise 13: Imputasi data hilang

Saatnya menyatukan semuanya dan membangun beberapa model! Pada bab terakhir ini, Anda akan membangun model dasar sebelum menyetel beberapa hiperparameter dan meningkatkan hasil dengan ansambel. Anda kemudian akan mendapatkan beberapa kiat dan trik akhir untuk membantu Anda berkompetisi dengan lebih efektif.

Exercise 1: Model baseline Exercise 2: Replikasi skor validasi Exercise 3: Baseline berbasis tanggal Exercise 4: Baseline berbasis gradient boosting Exercise 5: Penyetelan hyperparameter Exercise 6: Pencarian grid Exercise 7: Pencarian grid 2D Exercise 8: Ensembling model Exercise 9: Blending model

Latihan Saat Ini

Exercise 10: Model stacking I Exercise 11: Model stacking II Exercise 12: Tips terakhir Exercise 13: Menguji ide dari forum Kaggle Exercise 14: Pilih kiriman final Exercise 15: Pemikiran akhir