Crie uma receita para alta correlação
Depois de identificar recursos altamente correlacionados, em vez de removê-los manualmente, você pode usar a etapa de receita step_corr() em tidymodels. step_corr() não remove todos os recursos que estão correlacionados com outros recursos. Ele tenta remover o mínimo possível. Conceitualmente, como você viu no exercício de múltipla escolha, ele remove o recurso que tem mais sobreposição com qualquer combinação de outros recursos. A ideia é que os outros recursos contenham a mesma informação; assim, a informação sobreposta do recurso removido ainda fica representada nesses outros recursos.
Os pacotes tidyverse e tidymodels já foram carregados para você.
Este exercício faz parte do curso
Redução de Dimensionalidade em R
Instruções do exercício
- Crie uma receita que use
step_corr()com um limite de 0.7, aplicando a etapa apenas a preditores numéricos. - Aplique a receita a
house_sales_dfe armazene os dados filtrados emfiltered_house_sales_df. - Use
tidy()para identificar a coluna ou colunas que o filtrostep_corr()removeu.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a recipe using step_corr to remove numeric predictors correlated > 0.7
corr_recipe <-
___(price ~ ., data = ___) %>%
___(___, ___ = ___) %>%
___(___)
# Apply the recipe to the data
___ <-
___ %>%
___(new_data = ___)
# Identify the features that were removed
___(___, ___ = ___)