ComeçarComece de graça

Recursos mais profundos

Nos exercícios anteriores, mostramos como combinar duas variáveis pode gerar bons recursos adicionais para um modelo preditivo. Neste exercício, você vai gerar recursos "mais profundos" combinando o efeito de três variáveis em uma só. Depois, vai verificar se recursos mais profundos e mais complexos sempre resultam em melhores preditores.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Crie um novo recurso somando SQFTBELOWGROUND e SQFTABOVEGROUND e criando uma nova coluna Total_SQFT
  • Usando Total_SQFT, crie mais um recurso chamado BATHS_PER_1000SQFT a partir de BATHSTOTAL. Lembre-se de escalar Total_SQFT para milhares
  • Use describe() para inspecionar o novo mínimo, máximo e média do nosso recurso mais recente, BATHS_PER_1000SQFT. Notou algo estranho?
  • Crie dois jointplots() com Total_SQFT e BATHS_PER_1000SQFT como valores de \(x\) e SALESCLOSEPRICE como valor de \(y\) para ver qual tem o melhor ajuste R**2. Este recurso mais complexo tem uma relação mais forte com SALESCLOSEPRICE?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create new feature by adding two features together
df = df.____(____, df[____] + df[____])

# Create additional new feature using previously created feature
df = df.____(____, df[____] / (df[____] / ____))
df[[____]].____().show()

# Sample and create pandas dataframe
pandas_df = df.sample(False, 0.5, 0).toPandas()

# Linear model plots
sns.jointplot(x=____, y=____, data=pandas_df, kind="reg", stat_func=r2)
plt.show()
sns.jointplot(x=____, y=____, data=pandas_df, kind="reg", stat_func=r2)
plt.show()
Editar e executar o código