Prédire le revenu d’un film avec CatBoost
Terminons ce chapitre sur le boosting en revenant au jeu de données movies ! Dans cet exercice, vous allez entraîner un CatBoostRegressor pour prédire le log-revenue. Rappelez-vous que notre meilleur modèle jusqu’ici est un modèle AdaBoost avec une RMSE de 5.15.
CatBoost va-t-il dépasser AdaBoost ? Nous allons utiliser un ensemble de paramètres similaire pour une comparaison équitable.
Rappel des variables explicatives utilisées jusqu’à présent : 'budget', 'popularity', 'runtime', 'vote_average' et 'vote_count'. catboost a été importé pour vous sous le nom cb.
REMARQUE : veillez à ne pas utiliser un classifieur, sinon votre session pourrait expirer !
Cet exercice fait partie du cours
Méthodes d’ensemble en Python
Instructions
- Créez et entraînez un
CatBoostRegressoravec100estimateurs, un taux d’apprentissage de0.1et une profondeur maximale de3. - Calculez les prédictions sur l’ensemble de test et affichez la RMSE.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
import catboost as cb
# Build and fit a CatBoost regressor
reg_cat = ____.____(____, ____, ____, random_state=500)
____
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance using the RMSE
rmse_cat = np.sqrt(mean_squared_error(y_test, pred))
print('RMSE (CatBoost): {:.3f}'.format(rmse_cat))