Memprediksi pendapatan film
Mari mulai tantangan memprediksi pendapatan film dengan membangun regresi linear sederhana untuk memperkirakan log-pendapatan film berdasarkan fitur 'budget'. Metrik yang akan Anda gunakan di sini adalah RMSE (root mean squared error). Untuk menghitungnya menggunakan scikit-learn, Anda dapat memakai fungsi mean_squared_error() dari modul sklearn.metrics lalu mengambil akar kuadratnya menggunakan numpy.
Himpunan data movies telah dimuat untuk Anda dan dibagi menjadi set latih dan uji. Selain itu, nilai yang hilang telah diganti dengan nol. Kami juga menstandarkan fitur masukan dengan menggunakan StandardScaler(). Lihat kursus DataCamp tentang pembersihan data dan rekayasa fitur jika Anda ingin mempelajari lebih lanjut tentang prapemrosesan untuk Machine Learning.
Latihan ini adalah bagian dari kursus
Metode Ensemble di Python
Petunjuk latihan
- Instansiasikan model
LinearRegressiondefault. - Hitung prediksi pada set uji.
- Hitung RMSE. Fungsi
mean_squared_error()memerlukan dua argumen:y_test, diikuti prediksi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Build and fit linear regression model
reg_lm = ____
reg_lm.fit(X_train, y_train)
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance using the RMSE
rmse = np.sqrt(____)
print('RMSE: {:.3f}'.format(rmse))