ComeçarComece de graça

Diferenças

Vamos explorar a geração de features a partir de outras existentes. No meio-oeste dos EUA, muitas casas unifamiliares têm terreno extra ao redor para áreas verdes. Neste exemplo, você vai criar uma nova feature chamada 'YARD_SIZE' e depois verificar se ela está correlacionada com nossa variável de resultado.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Crie uma nova coluna usando withColumn() chamada LOT_SIZE_SQFT e converta ACRES para pés quadrados multiplicando pelo fator de conversão acres_to_sqfeet.
  • Crie outra nova coluna chamada YARD_SIZE, subtraindo FOUNDATIONSIZE de LOT_SIZE_SQFT.
  • Execute corr() para cada variável independente YARD_SIZE, FOUNDATIONSIZE, LOT_SIZE_SQFT em relação à variável dependente SALESCLOSEPRICE. A nova feature mostra uma correlação mais forte do que qualquer um de seus componentes?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Lot size in square feet
acres_to_sqfeet = 43560
df = df.____(____, df[____] * ____)

# Create new column YARD_SIZE
df = df.____(____, df[____] - df[____])

# Corr of ACRES vs SALESCLOSEPRICE
print("Corr of ACRES vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
# Corr of FOUNDATIONSIZE vs SALESCLOSEPRICE
print("Corr of FOUNDATIONSIZE vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
# Corr of YARD_SIZE vs SALESCLOSEPRICE
print("Corr of YARD_SIZE vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
Editar e executar o código