Diferenças
Vamos explorar a geração de features a partir de outras existentes. No meio-oeste dos EUA, muitas casas unifamiliares têm terreno extra ao redor para áreas verdes. Neste exemplo, você vai criar uma nova feature chamada 'YARD_SIZE' e depois verificar se ela está correlacionada com nossa variável de resultado.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Crie uma nova coluna usando
withColumn()chamadaLOT_SIZE_SQFTe convertaACRESpara pés quadrados multiplicando pelo fator de conversãoacres_to_sqfeet. - Crie outra nova coluna chamada
YARD_SIZE, subtraindoFOUNDATIONSIZEdeLOT_SIZE_SQFT. - Execute
corr()para cada variável independenteYARD_SIZE,FOUNDATIONSIZE,LOT_SIZE_SQFTem relação à variável dependenteSALESCLOSEPRICE. A nova feature mostra uma correlação mais forte do que qualquer um de seus componentes?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Lot size in square feet
acres_to_sqfeet = 43560
df = df.____(____, df[____] * ____)
# Create new column YARD_SIZE
df = df.____(____, df[____] - df[____])
# Corr of ACRES vs SALESCLOSEPRICE
print("Corr of ACRES vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
# Corr of FOUNDATIONSIZE vs SALESCLOSEPRICE
print("Corr of FOUNDATIONSIZE vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
# Corr of YARD_SIZE vs SALESCLOSEPRICE
print("Corr of YARD_SIZE vs SALESCLOSEPRICE: " + str(df.____(____, ____)))