Usando Corr()
O ditado "correlação não implica causalidade" é um alerta importante. Ainda assim, a correlação nos dá uma boa pista de onde começar a buscar atributos promissores para usar nos nossos modelos. Use este exercício para se familiarizar com a exploração inicial dos seus dados, tentando encontrar padrões.
Uma lista chamada columns contendo nomes de colunas já foi criada para você. Neste exercício, você vai calcular a correlação entre essas colunas e 'SALESCLOSEPRICE' e encontrar o valor máximo.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Use um loop
forpara iterar porcolumns. - Em cada iteração, calcule a correlação entre a coluna atual e
'SALESCLOSEPRICE'usando o métodocorr(). - Crie uma lógica para atualizar a maior correlação observada e com qual coluna ela ocorre.
- Imprima o nome da coluna que tem a maior correlação com
'SALESCLOSEPRICE'.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Name and value of col with max corr
corr_max = 0
corr_max_col = columns[0]
# Loop to check all columns contained in list
for ____ in ____:
# Check the correlation of a pair of columns
corr_val = df.____(____, ____)
# Logic to compare corr_max with current corr_val
if ____ ____ ____:
# Update the column name and corr value
corr_max = corr_val
corr_max_col = col
print(corr_max_col)