Replikasi skor validasi
Anda telah melihat skor validasi dan Public Leaderboard dalam video. Namun, contoh kode hanya tersedia untuk data uji. Untuk mendapatkan skor validasi, Anda perlu mengulangi proses yang sama pada himpunan holdout.
Sepanjang bab ini, Anda akan bekerja dengan data kompetisi New York City Taxi. Masalahnya adalah memprediksi jumlah ongkos untuk perjalanan taksi di New York City. Metrik kompetisinya adalah root mean squared error.
Tujuan pertama adalah mengevaluasi model Baseline pada data validasi. Anda akan mereplikasi Baseline paling sederhana berdasarkan rata-rata "fare_amount". Ingat bahwa sebagai strategi validasi kita menggunakan pembagian holdout 30% dengan validation_train sebagai latih dan validation_test sebagai DataFrame holdout. Keduanya tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Memenangi Kompetisi Kaggle dengan Python
Petunjuk latihan
- Hitung rata-rata
"fare_amount"pada seluruh DataFramevalidation_train. - Tetapkan nilai prediksi naif ini untuk semua prediksi holdout. Simpan di kolom
"pred".
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
import numpy as np
from sklearn.metrics import mean_squared_error
from math import sqrt
# Calculate the mean fare_amount on the validation_train data
naive_prediction = np.____(____['____'])
# Assign naive prediction to all the holdout observations
validation_test['pred'] = ____
# Measure the local RMSE
rmse = sqrt(mean_squared_error(validation_test['fare_amount'], validation_test['pred']))
print('Validation RMSE for Baseline I model: {:.3f}'.format(rmse))