Predecir sobre el conjunto de prueba

Ahora que tienes un conjunto de entrenamiento y otro de prueba generados aleatoriamente, puedes usar la función lm() como en el primer ejercicio para ajustar un modelo sobre tu conjunto de entrenamiento, en lugar de usar todo el conjunto de datos. Recuerda que puedes usar la interfaz de fórmulas de la función de regresión lineal para ajustar un modelo con una variable objetivo específica utilizando el resto de variables del conjunto de datos como predictoras:

mod <- lm(y ~ ., training_data)

Puedes usar la función predict() para generar predicciones de ese modelo sobre datos nuevos. El nuevo conjunto de datos debe tener todas las columnas del conjunto de entrenamiento, pero pueden estar en un orden distinto y con valores diferentes. Aquí, en lugar de volver a predecir sobre el conjunto de entrenamiento, puedes predecir sobre el conjunto de prueba, que no usaste para entrenar el modelo. Esto te permitirá calcular el error fuera de muestra del modelo en el siguiente ejercicio:

p <- predict(model, new_data)

Este ejercicio forma parte del curso

Machine Learning con caret en R

Ver curso

Instrucciones del ejercicio

Ajusta un modelo lm() llamado model para predecir price usando todas las demás variables como covariables. Asegúrate de usar el conjunto de entrenamiento, train.
Predice sobre el conjunto de prueba, test, usando predict(). Guarda esos valores en un vector llamado p.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Fit lm model on train: model


# Predict on test: p

Editar y ejecutar código