Verificação de recursos correlacionados
Agora você voltará ao conjunto de dados wine
, que consiste em recursos numéricos contínuos. Execute o coeficiente de correlação de Pearson no conjunto de dados para determinar quais colunas são boas candidatas a serem eliminadas. Em seguida, remova essas colunas do DataFrame.
Este exercício faz parte do curso
Pré-processamento para aprendizado de máquina em Python
Instruções do exercício
- Imprima os coeficientes de correlação de Pearson para cada par de recursos no conjunto de dados
wine
. - Elimine todas as colunas de
wine
que tenham um coeficiente de correlação acima de 0,75 com pelo menos duas outras colunas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Print out the column correlations of the wine dataset
print(____)
# Drop that column from the DataFrame
wine = wine.____(____, ____)
print(wine.head())