Usando PCA como alternativa ao nearZeroVar()

Uma alternativa a remover preditores de baixa variância é rodar PCA no seu conjunto de dados. Às vezes isso é preferível porque não descarta todos os seus dados: muitos preditores diferentes de baixa variância podem acabar combinados em uma única variável de PCA com alta variância, o que pode ter um impacto positivo na precisão do seu modelo.

Esse é um truque especialmente bom para modelos lineares: a opção pca no argumento preProcess vai centralizar e padronizar seus dados, combinar variáveis de baixa variância e garantir que todos os seus preditores sejam ortogonais. Isso cria um conjunto de dados ideal para modelagem de regressão linear e muitas vezes pode melhorar a precisão dos seus modelos.

Este exercício faz parte do curso

Machine Learning com caret em R

Ver curso

Instruções do exercício

bloodbrain_x e bloodbrain_y estão carregados no seu workspace.

Ajuste um modelo glm ao conjunto completo de dados blood-brain usando a opção "pca" em preProcess.
Imprima o modelo no console e examine o resultado.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Fit glm model using PCA: model
model <- train(
  x = ___, 
  y = ___,
  method = ___, 
  preProcess = ___
)

# Print model to console

Editar e executar o código