Combinando métodos de preprocesamiento
El argumento preProcess de train() no te limita solo a imputar valores perdidos. También incluye una gran variedad de otras técnicas de preProcess que te facilitan mucho la vida como científico/a de datos. Puedes ver la lista completa escribiendo ?preProcess y consultando la página de ayuda de esta función.
Un conjunto de funciones de preprocesamiento especialmente útil para ajustar modelos de regresión es la estandarización: centrado y escalado. Primero se hace el centrado restando la media de cada columna a cada valor de esa columna, y luego se escala dividiendo por la desviación estándar.
La estandarización transforma tus datos de modo que, para cada columna, la media sea 0 y la desviación estándar sea 1. Esto facilita que los modelos de regresión encuentren una buena solución.
Este ejercicio forma parte del curso
Machine Learning con caret en R
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Fit glm with median imputation
model <- train(
x = ___,
y = ___,
method = ___,
trControl = myControl,
preProcess = ___
)
# Print model