Combinando métodos de preprocesamiento

El argumento preProcess de train() no te limita solo a imputar valores perdidos. También incluye una gran variedad de otras técnicas de preProcess que te facilitan mucho la vida como científico/a de datos. Puedes ver la lista completa escribiendo ?preProcess y consultando la página de ayuda de esta función.

Un conjunto de funciones de preprocesamiento especialmente útil para ajustar modelos de regresión es la estandarización: centrado y escalado. Primero se hace el centrado restando la media de cada columna a cada valor de esa columna, y luego se escala dividiendo por la desviación estándar.

La estandarización transforma tus datos de modo que, para cada columna, la media sea 0 y la desviación estándar sea 1. Esto facilita que los modelos de regresión encuentren una buena solución.

Este ejercicio forma parte del curso

Machine Learning con caret en R

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Fit glm with median imputation
model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print model

Editar y ejecutar código