Baseline berbasis tanggal
Kita sudah membangun 3 model baseline yang berbeda. Untuk menambah latihan, mari membuat beberapa lagi. Model pertama didasarkan pada variabel pengelompokan. Jelas bahwa tarif perjalanan dapat bergantung pada waktu dalam sehari. Misalnya, harga bisa lebih tinggi pada jam sibuk.
Tujuan Anda adalah membangun model baseline yang akan memberikan nilai rata-rata "fare_amount" untuk jam yang bersesuaian. Untuk saat ini, Anda akan membuat model untuk seluruh data train dan membuat prediksi untuk himpunan data test.
DataFrame train dan test tersedia di ruang kerja Anda. Selain itu, kolom "pickup_datetime" pada kedua DataFrame sudah dikonversi menjadi objek datetime untuk Anda.
Latihan ini adalah bagian dari kursus
Memenangi Kompetisi Kaggle dengan Python
Petunjuk latihan
- Ambil nilai jam dari kolom "pickup_datetime" untuk DataFrame
traindantest. - Hitung rata-rata "fare_amount" untuk setiap jam pada data train.
- Buat prediksi
testmenggunakan metodemap()daripandasdan hasil pengelompokan tersebut. - Tulis prediksi ke berkas.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Get pickup hour from the pickup_datetime column
train['hour'] = train['pickup_datetime'].dt.____
test['hour'] = test['pickup_datetime'].dt.____
# Calculate average fare_amount grouped by pickup hour
hour_groups = train.____('____')['____'].mean()
# Make predictions on the test set
test['fare_amount'] = test.hour.map(____)
# Write predictions
test[['id','fare_amount']].____('hour_mean_sub.csv', index=False)