Comece agoraComece grátis

Recursos mais profundos

Nos exercícios anteriores, mostramos como combinar duas variáveis pode gerar bons recursos adicionais para um modelo preditivo. Neste exercício, você vai gerar recursos "mais profundos" combinando o efeito de três variáveis em uma só. Depois, vai verificar se recursos mais profundos e mais complexos sempre resultam em melhores preditores.

Este exercicio faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercicio

  • Crie um novo recurso somando SQFTBELOWGROUND e SQFTABOVEGROUND e criando uma nova coluna Total_SQFT
  • Usando Total_SQFT, crie mais um recurso chamado BATHS_PER_1000SQFT a partir de BATHSTOTAL. Lembre-se de escalar Total_SQFT para milhares
  • Use describe() para inspecionar o novo mínimo, máximo e média do nosso recurso mais recente, BATHS_PER_1000SQFT. Notou algo estranho?
  • Crie dois jointplots() com Total_SQFT e BATHS_PER_1000SQFT como valores de \(x\) e SALESCLOSEPRICE como valor de \(y\) para ver qual tem o melhor ajuste R**2. Este recurso mais complexo tem uma relação mais forte com SALESCLOSEPRICE?

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create new feature by adding two features together
df = df.____(____, df[____] + df[____])

# Create additional new feature using previously created feature
df = df.____(____, df[____] / (df[____] / ____))
df[[____]].____().show()

# Sample and create pandas dataframe
pandas_df = df.sample(False, 0.5, 0).toPandas()

# Linear model plots
sns.jointplot(x=____, y=____, data=pandas_df, kind="reg", stat_func=r2)
plt.show()
sns.jointplot(x=____, y=____, data=pandas_df, kind="reg", stat_func=r2)
plt.show()
Editar e Executar Código