RMSE en échantillon pour une régression linéaire sur diamonds
Comme vous l’avez vu dans la vidéo, le jeu de données diamonds est inclus dans le cours ; c’est un jeu classique du package ggplot2. Il contient des caractéristiques physiques de diamants ainsi que leur prix de vente. Un défi intéressant consiste à prédire le prix des diamants à partir de leurs caractéristiques à l’aide, par exemple, d’une régression linéaire.
Rappelez-vous que pour ajuster une régression linéaire, vous utilisez la fonction lm() au format suivant :
mod <- lm(y ~ x, my_data)
Pour effectuer des prédictions avec mod sur les données d’origine, vous appelez la fonction predict() :
pred <- predict(mod, my_data)
Cet exercice fait partie du cours
Machine Learning avec caret en R
Instructions
- Ajustez un modèle linéaire sur le jeu de données
diamondsen prédisantpriceà partir de toutes les autres variables (c.-à-d.price ~ .). Enregistrez le résultat dansmodel. - Réalisez des prédictions avec
modelsur l’ensemble du jeu de données d’origine et enregistrez le résultat dansp. - Calculez les erreurs avec la formule \(errors = predicted - actual\). Enregistrez le résultat dans
error. - Calculez la RMSE en utilisant la formule vue dans la vidéo et affichez-la dans la console.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Fit lm model: model
# Predict on full data: p
# Compute errors: error
# Calculate RMSE