Prédire sur le jeu de test
Maintenant que vous avez aléatoirement séparé un jeu d’entraînement et un jeu de test, vous pouvez utiliser la fonction lm() comme dans le premier exercice pour ajuster un modèle sur votre jeu d’entraînement plutôt que sur l’ensemble du jeu de données. Rappelez-vous que vous pouvez utiliser l’interface par formule de la régression linéaire pour ajuster un modèle avec une variable cible donnée en utilisant toutes les autres variables du jeu de données comme prédicteurs :
mod <- lm(y ~ ., training_data)
Vous pouvez utiliser la fonction predict() pour générer des prédictions de ce modèle sur de nouvelles données. Le nouveau jeu de données doit contenir toutes les colonnes du jeu d’entraînement, mais elles peuvent être dans un ordre différent avec d’autres valeurs. Ici, au lieu de re-prédire sur le jeu d’entraînement, vous pouvez prédire sur le jeu de test, que vous n’avez pas utilisé pour entraîner le modèle. Cela vous permettra de déterminer l’erreur hors échantillon du modèle dans le prochain exercice :
p <- predict(model, new_data)
Cet exercice fait partie du cours
Machine Learning avec caret en R
Instructions
- Ajustez un modèle
lm()appelémodelpour prédirepriceen utilisant toutes les autres variables comme covariables. Veillez à utiliser le jeu d’entraînementtrain. - Prédisez sur le jeu de test
testavecpredict(). Stockez ces valeurs dans un vecteur appelép.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Fit lm model on train: model
# Predict on test: p