Descobrindo preditores correlacionados
Variáveis preditoras correlacionadas fornecem informação redundante e podem prejudicar o processo de ajuste do modelo. Quando duas variáveis estão altamente correlacionadas, seus valores variam linearmente entre si e, portanto, entregam a mesma informação aos seus algoritmos de Machine Learning. Esse fenômeno é conhecido como multicolinearidade.
Antes de começar o ajuste do modelo, é importante explorar seu conjunto de dados para descobrir essas relações e removê-las nas etapas de engenharia de atributos.
Neste exercício, você vai explorar o conjunto de dados telecom_training criando uma matriz de correlação de todas as variáveis preditoras numéricas.
Os dados telecom_training já foram carregados na sua sessão.
Este exercício faz parte do curso
Modelagem com tidymodels em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
telecom_training %>%
# Select numeric columns
___(___) %>%
# Calculate correlation matrix
___