MulaiMulai sekarang secara gratis

Baseline berbasis gradient boosting

Mari kita membangun baseline terakhir berbasis Random Forest. Anda melihat peningkatan skor yang besar saat beralih dari baseline pengelompokan ke Gradient Boosting di video. Sekarang, Anda akan menggunakan Random Forest dari sklearn untuk semakin meningkatkan skor tersebut.

Tujuan latihan ini adalah mengambil fitur numerik dan melatih model Random Forest tanpa penyetelan apa pun. Setelah itu, Anda dapat membuat prediksi pada data uji dan memvalidasi hasilnya di Public Leaderboard. Perhatikan bahwa Anda sudah memiliki fitur "hour" yang juga dapat digunakan sebagai masukan ke model.

Latihan ini adalah bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

Lihat Kursus

Petunjuk latihan

  • Tambahkan fitur "hour" ke daftar fitur numerik.
  • Latih RandomForestRegressor pada data train dengan fitur numerik dan "fare_amount" sebagai target.
  • Gunakan model Random Forest yang telah dilatih untuk membuat prediksi pada data test.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from sklearn.ensemble import RandomForestRegressor

# Select only numeric features
features = ['pickup_longitude', 'pickup_latitude', 'dropoff_longitude',
            'dropoff_latitude', 'passenger_count', ____]

# Train a Random Forest model
rf = RandomForestRegressor()
rf.____(train[____], train.fare_amount)

# Make predictions on the test data
test['fare_amount'] = ____.____(test[features])

# Write predictions
test[['id','fare_amount']].to_csv('rf_sub.csv', index=False)
Edit dan Jalankan Kode