Prédire sur le jeu de test

Maintenant que vous avez aléatoirement séparé un jeu d’entraînement et un jeu de test, vous pouvez utiliser la fonction lm() comme dans le premier exercice pour ajuster un modèle sur votre jeu d’entraînement plutôt que sur l’ensemble du jeu de données. Rappelez-vous que vous pouvez utiliser l’interface par formule de la régression linéaire pour ajuster un modèle avec une variable cible donnée en utilisant toutes les autres variables du jeu de données comme prédicteurs :

mod <- lm(y ~ ., training_data)

Vous pouvez utiliser la fonction predict() pour générer des prédictions de ce modèle sur de nouvelles données. Le nouveau jeu de données doit contenir toutes les colonnes du jeu d’entraînement, mais elles peuvent être dans un ordre différent avec d’autres valeurs. Ici, au lieu de re-prédire sur le jeu d’entraînement, vous pouvez prédire sur le jeu de test, que vous n’avez pas utilisé pour entraîner le modèle. Cela vous permettra de déterminer l’erreur hors échantillon du modèle dans le prochain exercice :

p <- predict(model, new_data)

Cet exercice fait partie du cours

Machine Learning avec caret en R

Afficher le cours

Instructions

Ajustez un modèle lm() appelé model pour prédire price en utilisant toutes les autres variables comme covariables. Veillez à utiliser le jeu d’entraînement train.
Prédisez sur le jeu de test test avec predict(). Stockez ces valeurs dans un vecteur appelé p.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Fit lm model on train: model


# Predict on test: p

Modifier et exécuter le code