Prédire les recettes d’un film
Commençons le défi de la prédiction des recettes de films en construisant une régression linéaire simple pour estimer le logarithme des recettes à partir de la caractéristique 'budget'. La métrique utilisée ici est la RMSE (root mean squared error, ou racine de l’erreur quadratique moyenne). Pour la calculer avec scikit-learn, vous pouvez utiliser la fonction mean_squared_error() du module sklearn.metrics, puis en prendre la racine carrée avec numpy.
Le jeu de données movies a été chargé et scindé en ensembles d’entraînement et de test. De plus, les valeurs manquantes ont été remplacées par des zéros. Nous avons également standardisé la variable d’entrée à l’aide de StandardScaler(). Consultez les cours de DataCamp sur le nettoyage des données et l’ingénierie des caractéristiques si vous souhaitez en savoir plus sur le prétraitement pour le Machine Learning.
Cet exercice fait partie du cours
Méthodes d’ensemble en Python
Instructions
- Instanciez le modèle
LinearRegressionpar défaut. - Calculez les prédictions sur l’ensemble de test.
- Calculez la RMSE. La fonction
mean_squared_error()prend deux arguments :y_test, suivi des prédictions.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Build and fit linear regression model
reg_lm = ____
reg_lm.fit(X_train, y_train)
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance using the RMSE
rmse = np.sqrt(____)
print('RMSE: {:.3f}'.format(rmse))