ComeçarComece de graça

Usando visualizações: lmplot

Criar gráficos de modelo linear ajuda você a visualizar se as variáveis têm relação com a variável dependente. Se tiverem, são boas candidatas para entrar na sua análise. Se não tiverem, isso não significa que você deve descartá-las; pode ser que seja necessário processá-las ou tratá-las antes de usá-las.

seaborn está disponível no seu workspace com o alias padrão sns.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Usando o conjunto de dados carregado df, filtre para as colunas 'SALESCLOSEPRICE' e 'LIVINGAREA' com select().
  • Faça uma amostra de 50% do DataFrame com sample(), garantindo que não haja reposição e definindo a semente aleatória como 42.
  • Converta o Spark DataFrame em um pandas.DataFrame() com toPandas().
  • Usando 'SALESCLOSEPRICE' como variável dependente e 'LIVINGAREA' como variável independente, gere um gráfico de modelo linear usando o lmplot() do seaborn.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Select a the relevant columns and sample
sample_df = df.____([____, ____]).____(____, ____, ____)

# Convert to pandas dataframe
pandas_df = sample_df.____()

# Linear model plot of pandas_df
sns.____(x=____, y=____, data=____)
plt.show()
Editar e executar o código