Boosting pour la prédiction du revenu

Le modèle initial a obtenu une RMSE d’environ 7.34. Voyons si nous pouvons l’améliorer avec une itération de boosting.

Vous allez construire une autre régression linéaire, mais cette fois la cible correspond aux erreurs du modèle de base, calculées comme suit :

y_train_error = pred_train - y_train
y_test_error = pred_test - y_test

Pour ce modèle, vous utiliserez plutôt la variable 'popularity', en espérant qu’elle révèle des motifs plus informatifs que la seule variable 'budget'. Elles sont disponibles sous X_train_pop et X_test_pop. Comme dans l’exercice précédent, les variables d’entrée ont été standardisées pour vous.

Cet exercice fait partie du cours

<cours>Méthodes d’ensemble en Python</cours>

Voir le cours

Instructions de l’exercice

Ajustez un modèle de régression linéaire sur les erreurs précédentes en utilisant X_train_pop et y_train_error.
Calculez les erreurs prédites sur l’ensemble de test, X_test_pop.
Calculez la RMSE, comme dans l’exercice précédent, en utilisant y_test_error et pred_error.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Fit a linear regression model to the previous errors
reg_error = LinearRegression()
____

# Calculate the predicted errors on the test set
pred_error = ____

# Evaluate the updated performance
rmse_error = ____
print('RMSE: {:.3f}'.format(rmse_error))

Modifier et exécuter le code