Baseline berbasis gradient boosting
Mari kita membangun baseline terakhir berbasis Random Forest. Anda melihat peningkatan skor yang besar saat beralih dari baseline pengelompokan ke Gradient Boosting di video. Sekarang, Anda akan menggunakan Random Forest dari sklearn untuk semakin meningkatkan skor tersebut.
Tujuan latihan ini adalah mengambil fitur numerik dan melatih model Random Forest tanpa penyetelan apa pun. Setelah itu, Anda dapat membuat prediksi pada data uji dan memvalidasi hasilnya di Public Leaderboard. Perhatikan bahwa Anda sudah memiliki fitur "hour" yang juga dapat digunakan sebagai masukan ke model.
Latihan ini adalah bagian dari kursus
Memenangi Kompetisi Kaggle dengan Python
Petunjuk latihan
- Tambahkan fitur
"hour"ke daftar fitur numerik. - Latih
RandomForestRegressorpada data train dengan fitur numerik dan"fare_amount"sebagai target. - Gunakan model Random Forest yang telah dilatih untuk membuat prediksi pada data test.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from sklearn.ensemble import RandomForestRegressor
# Select only numeric features
features = ['pickup_longitude', 'pickup_latitude', 'dropoff_longitude',
'dropoff_latitude', 'passenger_count', ____]
# Train a Random Forest model
rf = RandomForestRegressor()
rf.____(train[____], train.fare_amount)
# Make predictions on the test data
test['fare_amount'] = ____.____(test[features])
# Write predictions
test[['id','fare_amount']].to_csv('rf_sub.csv', index=False)