Combinando métodos de pré-processamento
O argumento preProcess de train() não se limita a imputar valores ausentes. Ele também inclui uma grande variedade de outras técnicas de preProcess para facilitar muito a sua vida como cientista de dados. Você pode ver a lista completa digitando ?preProcess e lendo a página de ajuda dessa função.
Um conjunto de funções de pré-processamento especialmente útil para ajustar modelos de regressão é a padronização: centralização e escalonamento. Primeiro, você faz a centralização ao subtrair a média de cada coluna de cada valor dessa coluna; depois, faz o escalonamento dividindo pelo desvio padrão.
A padronização transforma seus dados de modo que, para cada coluna, a média seja 0 e o desvio padrão seja 1. Isso facilita para que modelos de regressão encontrem uma boa solução.
Este exercício faz parte do curso
Machine Learning com caret em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Fit glm with median imputation
model <- train(
x = ___,
y = ___,
method = ___,
trControl = myControl,
preProcess = ___
)
# Print model