Usando visualizações: lmplot
Criar gráficos de modelo linear ajuda você a visualizar se as variáveis têm relação com a variável dependente. Se tiverem, são boas candidatas para entrar na sua análise. Se não tiverem, isso não significa que você deve descartá-las; pode ser que seja necessário processá-las ou tratá-las antes de usá-las.
seaborn está disponível no seu workspace com o alias padrão sns.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Usando o conjunto de dados carregado
df, filtre para as colunas 'SALESCLOSEPRICE' e 'LIVINGAREA' comselect(). - Faça uma amostra de 50% do DataFrame com
sample(), garantindo que não haja reposição e definindo a semente aleatória como 42. - Converta o Spark DataFrame em um
pandas.DataFrame()comtoPandas(). - Usando 'SALESCLOSEPRICE' como variável dependente e 'LIVINGAREA' como variável independente, gere um gráfico de modelo linear usando o
lmplot()do seaborn.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Select a the relevant columns and sample
sample_df = df.____([____, ____]).____(____, ____, ____)
# Convert to pandas dataframe
pandas_df = sample_df.____()
# Linear model plot of pandas_df
sns.____(x=____, y=____, data=____)
plt.show()