Visualizando dados ausentes
Conseguir plotar valores ausentes é uma ótima maneira de entender rapidamente quanto do seu conjunto de dados está faltando. Isso também pode destacar quando variáveis estão ausentes seguindo algum padrão — algo que você vai precisar tratar com cuidado para evitar viés no seu modelo.
Qual variável tem mais valores ausentes? Execute todas as linhas de código, exceto a última, para descobrir a resposta. Quando tiver certeza, preencha o valor e clique em "Enviar Resposta".
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Use
select()para filtrar o dataframedfcom a lista de colunascolumnse amostrar com a funçãosample()fornecida, e atribua esse dataframe à variávelsample_df. - Converta o dataframe filtrado para um dataframe
pandas(pandas_df) e usepandasisnull()para transformá-lo em valores True/False. Armazene esse resultado emtf_df. - Use o
heatmap()do seaborn para plotartf_df. - Clique em "Executar código" para ver o gráfico. Depois, atribua o nome da variável com mais valores ausentes a
answer.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Sample the dataframe and convert to Pandas
____ = df.select(____).sample(False, 0.1, 42)
____ = ____.toPandas()
# Convert all values to T/F
tf_df = ____.____()
# Plot it
sns.____(data=____)
plt.xticks(rotation=30, fontsize=10)
plt.yticks(rotation=0, fontsize=10)
plt.show()
# Set the answer to the column with the most missing data
answer = '____'