Usando Corr()

O ditado "correlação não implica causalidade" é um alerta importante. Ainda assim, a correlação nos dá uma boa pista de onde começar a buscar atributos promissores para usar nos nossos modelos. Use este exercício para se familiarizar com a exploração inicial dos seus dados, tentando encontrar padrões.

Uma lista chamada columns contendo nomes de colunas já foi criada para você. Neste exercício, você vai calcular a correlação entre essas colunas e 'SALESCLOSEPRICE' e encontrar o valor máximo.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

Use um loop for para iterar por columns.
Em cada iteração, calcule a correlação entre a coluna atual e 'SALESCLOSEPRICE' usando o método corr().
Crie uma lógica para atualizar a maior correlação observada e com qual coluna ela ocorre.
Imprima o nome da coluna que tem a maior correlação com 'SALESCLOSEPRICE'.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Name and value of col with max corr
corr_max = 0
corr_max_col = columns[0]

# Loop to check all columns contained in list
for ____ in ____:
    # Check the correlation of a pair of columns
    corr_val = df.____(____, ____)
    # Logic to compare corr_max with current corr_val
    if ____ ____ ____:
        # Update the column name and corr value
        corr_max = corr_val
        corr_max_col = col

print(corr_max_col)

Editar e executar o código