Verificações de qualidade dos dados
Como você viu no vídeo anterior, valores ausentes podem levar à perda de informações valiosas e, potencialmente, a interpretações incorretas. Da mesma forma, a presença de valores não vistos também pode afetar a confiança do seu modelo.
Neste exercício, seu objetivo é verificar se o conjunto de dados de reservas de hotel contém valores ausentes e identificar quaisquer valores não vistos. Os conjuntos de dados de referência e de análise já estão carregados, assim como a biblioteca nannyml.
Um lembrete rápido: se você não lembrar os tipos de coluna, pode explorar os dados facilmente usando o método .head().
Este exercício faz parte do curso
Monitoramento de Machine Learning em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Define analyzed columns
selected_columns = ['country', 'lead_time', 'parking_spaces', 'hotel']
# Intialize missing values calculator
ms_calc = ____.____(
____=____,
____=____,
timestamp_column_name='timestamp'
)
# Fit, calculate and plot the results
ms_calc.fit(reference)
ms_results = ms_calc.calculate(analysis)
ms_results.plot().show()