Informação mútua entre variáveis
O data frame credit_df contém várias variáveis contínuas. Quando duas variáveis contínuas são correlacionadas, elas carregam a mesma informação — algo chamado de informação mútua. Variáveis altamente correlacionadas não são apenas redundantes; elas podem causar problemas na modelagem. Por exemplo, em regressão, variáveis altamente correlacionadas (isto é, multicolinearidade) podem gerar resultados sem sentido. Para ter uma noção da informação mútua, você vai criar um gráfico de correlação para identificar variáveis com informação mútua.
Os pacotes tidyverse e corrr já foram carregados para você.
Este exercício faz parte do curso
Redução de Dimensionalidade em R
Instruções do exercício
- Use
correlate()erplot()para criar um gráfico de correlação das variáveis numéricas decredit_df.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a correlation plot
___ %>%
select(where(is.numeric)) %>%
___() %>%
shave() %>%
___(print_cor = TRUE) +
theme(axis.text.x = element_text(angle = 90, hjust = 1))