Predecir sobre el conjunto de prueba
Ahora que tienes un conjunto de entrenamiento y otro de prueba generados aleatoriamente, puedes usar la función lm() como en el primer ejercicio para ajustar un modelo sobre tu conjunto de entrenamiento, en lugar de usar todo el conjunto de datos. Recuerda que puedes usar la interfaz de fórmulas de la función de regresión lineal para ajustar un modelo con una variable objetivo específica utilizando el resto de variables del conjunto de datos como predictoras:
mod <- lm(y ~ ., training_data)
Puedes usar la función predict() para generar predicciones de ese modelo sobre datos nuevos. El nuevo conjunto de datos debe tener todas las columnas del conjunto de entrenamiento, pero pueden estar en un orden distinto y con valores diferentes. Aquí, en lugar de volver a predecir sobre el conjunto de entrenamiento, puedes predecir sobre el conjunto de prueba, que no usaste para entrenar el modelo. Esto te permitirá calcular el error fuera de muestra del modelo en el siguiente ejercicio:
p <- predict(model, new_data)
Este ejercicio forma parte del curso
Machine Learning con caret en R
Instrucciones del ejercicio
- Ajusta un modelo
lm()llamadomodelpara predecirpriceusando todas las demás variables como covariables. Asegúrate de usar el conjunto de entrenamiento,train. - Predice sobre el conjunto de prueba,
test, usandopredict(). Guarda esos valores en un vector llamadop.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Fit lm model on train: model
# Predict on test: p