Model stacking II

Baik, berikut yang sudah Anda lakukan sejauh ini dalam implementasi stacking:

Membagi data latih menjadi dua bagian
Melatih beberapa model pada Bagian 1
Membuat prediksi pada Bagian 2
Membuat prediksi pada data uji

Sekarang, tujuan Anda adalah membuat model tingkat kedua dengan menggunakan prediksi dari langkah 3 dan 4 sebagai fitur. Jadi, model ini dilatih pada data Bagian 2 dan kemudian Anda dapat membuat prediksi stacking pada data uji.

DataFrame part_2 dan test sudah tersedia di ruang kerja Anda. Prediksi Gradient Boosting dan Random Forest disimpan di DataFrame tersebut masing-masing dengan nama "gb_pred" dan "rf_pred".

Latihan ini merupakan bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

Instruksi latihan

Latih model Linear Regression pada data Bagian 2 menggunakan prediksi model Gradient Boosting dan Random Forest sebagai fitur.
Buat prediksi pada data uji menggunakan prediksi model Gradient Boosting dan Random Forest sebagai fitur.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

from sklearn.linear_model import LinearRegression

# Create linear regression model without the intercept
lr = LinearRegression(fit_intercept=False)

# Train 2nd level model on the Part 2 data
lr.____(part_2[['gb_pred', '____']], part_2.fare_amount)

# Make stacking predictions on the test data
test['stacking'] = lr.____(test[['gb_pred', '____']])

# Look at the model coefficients
print(lr.coef_)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Pada bab pertama ini, Anda akan mengenal proses kompetisi Kaggle. Anda akan melatih sebuah model dan menyiapkan berkas csv yang siap dikirimkan. Anda akan mempelajari perbedaan antara pembagian uji Public dan Private, serta cara mencegah overfitting.

Exercise 1: Gambaran umum kompetisi Exercise 2: Menjelajah data train Exercise 3: Jelajahi data test Exercise 4: Siapkan kiriman pertama Anda Exercise 5: Menentukan jenis permasalahan Exercise 6: Latih model sederhana Exercise 7: Siapkan sebuah submission Exercise 8: Papan peringkat Public vs Private Exercise 9: Model mana yang overfitting?Exercise 10: Latih model XGBoost Exercise 11: Menjelajahi overfitting pada XGBoost

Sekarang setelah Anda memahami dasar-dasar kompetisi Kaggle, Anda akan mempelajari cara menelaah persoalan spesifik yang dihadapi. Anda akan berlatih EDA dan menetapkan strategi validasi lokal yang tepat. Anda juga akan mempelajari tentang kebocoran data.

Exercise 1: Memahami masalah Exercise 2: Pahami jenis permasalahan Exercise 3: Menetapkan metrik kompetisi Exercise 4: EDA Awal Exercise 5: Statistik EDA Exercise 6: Plot EDA I Exercise 7: Plot EDA II Exercise 8: Validasi lokal Exercise 9: K-fold cross-validation Exercise 10: K-fold Terstratifikasi Exercise 11: Penggunaan validasi Exercise 12: Time K-fold Exercise 13: Skor validasi keseluruhan

Kini Anda akan mengenal berbagai jenis fitur. Anda akan memodifikasi fitur yang ada dan membuat yang baru. Selain itu, Anda akan menangani data hilang dengan tepat.

Exercise 1: Rekayasa fitur Exercise 2: Fitur aritmetika Exercise 3: Fitur tanggal Exercise 4: Fitur kategorikal Exercise 5: Pengodean label Exercise 6: One-Hot encoding Exercise 7: Target encoding Exercise 8: Pengodean target rata-rata Exercise 9: K-fold cross-validation Exercise 10: Melampaui klasifikasi biner Exercise 11: Data hilang Exercise 12: Temukan data hilang Exercise 13: Imputasi data hilang

Saatnya menyatukan semuanya dan membangun beberapa model! Pada bab terakhir ini, Anda akan membangun model dasar sebelum menyetel beberapa hiperparameter dan meningkatkan hasil dengan ansambel. Anda kemudian akan mendapatkan beberapa kiat dan trik akhir untuk membantu Anda berkompetisi dengan lebih efektif.

Exercise 1: Model baseline Exercise 2: Replikasi skor validasi Exercise 3: Baseline berbasis tanggal Exercise 4: Baseline berbasis gradient boosting Exercise 5: Penyetelan hyperparameter Exercise 6: Pencarian grid Exercise 7: Pencarian grid 2D Exercise 8: Ensembling model Exercise 9: Blending model Exercise 10: Model stacking I Exercise 11: Model stacking II

Latihan Saat Ini

Exercise 12: Tips terakhir Exercise 13: Menguji ide dari forum Kaggle Exercise 14: Pilih kiriman final Exercise 15: Pemikiran akhir