Recursos mais profundos

Nos exercícios anteriores, mostramos como combinar duas variáveis pode gerar bons recursos adicionais para um modelo preditivo. Neste exercício, você vai gerar recursos "mais profundos" combinando o efeito de três variáveis em uma só. Depois, vai verificar se recursos mais profundos e mais complexos sempre resultam em melhores preditores.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

Crie um novo recurso somando SQFTBELOWGROUND e SQFTABOVEGROUND e criando uma nova coluna Total_SQFT
Usando Total_SQFT, crie mais um recurso chamado BATHS_PER_1000SQFT a partir de BATHSTOTAL. Lembre-se de escalar Total_SQFT para milhares
Use describe() para inspecionar o novo mínimo, máximo e média do nosso recurso mais recente, BATHS_PER_1000SQFT. Notou algo estranho?
Crie dois jointplots() com Total_SQFT e BATHS_PER_1000SQFT como valores de \(x\) e SALESCLOSEPRICE como valor de \(y\) para ver qual tem o melhor ajuste R**2. Este recurso mais complexo tem uma relação mais forte com SALESCLOSEPRICE?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create new feature by adding two features together
df = df.____(____, df[____] + df[____])

# Create additional new feature using previously created feature
df = df.____(____, df[____] / (df[____] / ____))
df[[____]].____().show()

# Sample and create pandas dataframe
pandas_df = df.sample(False, 0.5, 0).toPandas()

# Linear model plots
sns.jointplot(x=____, y=____, data=pandas_df, kind="reg", stat_func=r2)
plt.show()
sns.jointplot(x=____, y=____, data=pandas_df, kind="reg", stat_func=r2)
plt.show()

Editar e executar o código