Filmomzet voorspellen met CatBoost
Laten we dit hoofdstuk over boosting afronden door terug te keren naar de movies-gegevensset! In deze oefening bouw je een CatBoostRegressor om de log-omzet te voorspellen. Onthoud dat ons beste model tot nu toe het AdaBoost-model is met een RMSE van 5.15.
Gaat CatBoost beter presteren dan AdaBoost? We gebruiken een vergelijkbare set parameters voor een eerlijke vergelijking.
Dit zijn de features die we tot nu toe hebben gebruikt: 'budget', 'popularity', 'runtime', 'vote_average' en 'vote_count'. catboost is voor je geïmporteerd als cb.
LET OP: gebruik geen classifier, anders kan je sessie verlopen!
Deze oefening maakt deel uit van de cursus
Ensemblemethoden in Python
Oefeninstructies
- Bouw en fit een
CatBoostRegressormet100estimators, een learning rate van0.1en een maximale diepte van3. - Bereken de voorspellingen voor de testset en print de RMSE.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
import catboost as cb
# Build and fit a CatBoost regressor
reg_cat = ____.____(____, ____, ____, random_state=500)
____
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance using the RMSE
rmse_cat = np.sqrt(mean_squared_error(y_test, pred))
print('RMSE (CatBoost): {:.3f}'.format(rmse_cat))