ComeçarComece de graça

Visualizando dados ausentes

Conseguir plotar valores ausentes é uma ótima maneira de entender rapidamente quanto do seu conjunto de dados está faltando. Isso também pode destacar quando variáveis estão ausentes seguindo algum padrão — algo que você vai precisar tratar com cuidado para evitar viés no seu modelo.

Qual variável tem mais valores ausentes? Execute todas as linhas de código, exceto a última, para descobrir a resposta. Quando tiver certeza, preencha o valor e clique em "Enviar Resposta".

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Use select() para filtrar o dataframe df com a lista de colunas columns e amostrar com a função sample() fornecida, e atribua esse dataframe à variável sample_df.
  • Converta o dataframe filtrado para um dataframe pandas (pandas_df) e use pandas isnull() para transformá-lo em valores True/False. Armazene esse resultado em tf_df.
  • Use o heatmap() do seaborn para plotar tf_df.
  • Clique em "Executar código" para ver o gráfico. Depois, atribua o nome da variável com mais valores ausentes a answer.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Sample the dataframe and convert to Pandas
____ = df.select(____).sample(False, 0.1, 42)
____ = ____.toPandas()

# Convert all values to T/F
tf_df = ____.____()

# Plot it
sns.____(data=____)
plt.xticks(rotation=30, fontsize=10)
plt.yticks(rotation=0, fontsize=10)
plt.show()

# Set the answer to the column with the most missing data
answer = '____'
Editar e executar o código