Prédire le revenu d’un film avec CatBoost

Terminons ce chapitre sur le boosting en revenant au jeu de données movies ! Dans cet exercice, vous allez entraîner un CatBoostRegressor pour prédire le log-revenue. Rappelez-vous que notre meilleur modèle jusqu’ici est un modèle AdaBoost avec une RMSE de 5.15.

CatBoost va-t-il dépasser AdaBoost ? Nous allons utiliser un ensemble de paramètres similaire pour une comparaison équitable.

Rappel des variables explicatives utilisées jusqu’à présent : 'budget', 'popularity', 'runtime', 'vote_average' et 'vote_count'. catboost a été importé pour vous sous le nom cb.

REMARQUE : veillez à ne pas utiliser un classifieur, sinon votre session pourrait expirer !

Cet exercice fait partie du cours

Méthodes d’ensemble en Python

Afficher le cours

Instructions

Créez et entraînez un CatBoostRegressor avec 100 estimateurs, un taux d’apprentissage de 0.1 et une profondeur maximale de 3.
Calculez les prédictions sur l’ensemble de test et affichez la RMSE.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

import catboost as cb

# Build and fit a CatBoost regressor
reg_cat = ____.____(____, ____, ____, random_state=500)
____

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance using the RMSE
rmse_cat = np.sqrt(mean_squared_error(y_test, pred))
print('RMSE (CatBoost): {:.3f}'.format(rmse_cat))

Modifier et exécuter le code