Diferenças

Vamos explorar a geração de features a partir de outras existentes. No meio-oeste dos EUA, muitas casas unifamiliares têm terreno extra ao redor para áreas verdes. Neste exemplo, você vai criar uma nova feature chamada 'YARD_SIZE' e depois verificar se ela está correlacionada com nossa variável de resultado.

Este exercicio faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercicio

Crie uma nova coluna usando withColumn() chamada LOT_SIZE_SQFT e converta ACRES para pés quadrados multiplicando pelo fator de conversão acres_to_sqfeet.
Crie outra nova coluna chamada YARD_SIZE, subtraindo FOUNDATIONSIZE de LOT_SIZE_SQFT.
Execute corr() para cada variável independente YARD_SIZE, FOUNDATIONSIZE, LOT_SIZE_SQFT em relação à variável dependente SALESCLOSEPRICE. A nova feature mostra uma correlação mais forte do que qualquer um de seus componentes?

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Lot size in square feet
acres_to_sqfeet = 43560
df = df.____(____, df[____] * ____)

# Create new column YARD_SIZE
df = df.____(____, df[____] - df[____])

# Corr of ACRES vs SALESCLOSEPRICE
print("Corr of ACRES vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
# Corr of FOUNDATIONSIZE vs SALESCLOSEPRICE
print("Corr of FOUNDATIONSIZE vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
# Corr of YARD_SIZE vs SALESCLOSEPRICE
print("Corr of YARD_SIZE vs SALESCLOSEPRICE: " + str(df.____(____, ____)))

Editar e Executar Código