Usando PCA como alternativa ao nearZeroVar()
Uma alternativa a remover preditores de baixa variância é rodar PCA no seu conjunto de dados. Às vezes isso é preferível porque não descarta todos os seus dados: muitos preditores diferentes de baixa variância podem acabar combinados em uma única variável de PCA com alta variância, o que pode ter um impacto positivo na precisão do seu modelo.
Esse é um truque especialmente bom para modelos lineares: a opção pca no argumento preProcess vai centralizar e padronizar seus dados, combinar variáveis de baixa variância e garantir que todos os seus preditores sejam ortogonais. Isso cria um conjunto de dados ideal para modelagem de regressão linear e muitas vezes pode melhorar a precisão dos seus modelos.
Este exercício faz parte do curso
Machine Learning com caret em R
Instruções do exercício
bloodbrain_x e bloodbrain_y estão carregados no seu workspace.
- Ajuste um modelo
glmao conjunto completo de dados blood-brain usando a opção"pca"empreProcess. - Imprima o modelo no console e examine o resultado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Fit glm model using PCA: model
model <- train(
x = ___,
y = ___,
method = ___,
preProcess = ___
)
# Print model to console