Recursos mais profundos
Nos exercícios anteriores, mostramos como combinar duas variáveis pode gerar bons recursos adicionais para um modelo preditivo. Neste exercício, você vai gerar recursos "mais profundos" combinando o efeito de três variáveis em uma só. Depois, vai verificar se recursos mais profundos e mais complexos sempre resultam em melhores preditores.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Crie um novo recurso somando
SQFTBELOWGROUNDeSQFTABOVEGROUNDe criando uma nova colunaTotal_SQFT - Usando
Total_SQFT, crie mais um recurso chamadoBATHS_PER_1000SQFTa partir deBATHSTOTAL. Lembre-se de escalarTotal_SQFTpara milhares - Use
describe()para inspecionar o novo mínimo, máximo e média do nosso recurso mais recente,BATHS_PER_1000SQFT. Notou algo estranho? - Crie dois
jointplots()comTotal_SQFTeBATHS_PER_1000SQFTcomo valores de \(x\) eSALESCLOSEPRICEcomo valor de \(y\) para ver qual tem o melhor ajuste R**2. Este recurso mais complexo tem uma relação mais forte comSALESCLOSEPRICE?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create new feature by adding two features together
df = df.____(____, df[____] + df[____])
# Create additional new feature using previously created feature
df = df.____(____, df[____] / (df[____] / ____))
df[[____]].____().show()
# Sample and create pandas dataframe
pandas_df = df.sample(False, 0.5, 0).toPandas()
# Linear model plots
sns.jointplot(x=____, y=____, data=pandas_df, kind="reg", stat_func=r2)
plt.show()
sns.jointplot(x=____, y=____, data=pandas_df, kind="reg", stat_func=r2)
plt.show()