Boosting untuk prediksi pendapatan
Model awal mendapatkan RMSE sekitar 7.34. Mari kita lihat apakah kita bisa memperbaikinya menggunakan satu iterasi boosting.
Anda akan membangun regresi linear lain, tetapi kali ini nilai targetnya adalah galat dari model dasar, yang dihitung sebagai berikut:
y_train_error = pred_train - y_train
y_test_error = pred_test - y_test
Untuk model ini Anda akan menggunakan fitur 'popularity', dengan harapan dapat memberikan pola yang lebih informatif dibanding hanya fitur 'budget'. Ini tersedia sebagai X_train_pop dan X_test_pop. Seperti pada latihan sebelumnya, fitur masukan telah distandardisasi untuk Anda.
Latihan ini adalah bagian dari kursus
Metode Ensemble di Python
Petunjuk latihan
- Latih model regresi linear pada galat sebelumnya menggunakan
X_train_popdany_train_error. - Hitung galat yang diprediksi pada himpunan data uji,
X_test_pop. - Hitung RMSE, seperti pada latihan sebelumnya, menggunakan
y_test_errordanpred_error.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Fit a linear regression model to the previous errors
reg_error = LinearRegression()
____
# Calculate the predicted errors on the test set
pred_error = ____
# Evaluate the updated performance
rmse_error = ____
print('RMSE: {:.3f}'.format(rmse_error))