Contrôles de qualité des données
Comme vous l’avez vu dans la vidéo précédente, les valeurs manquantes peuvent entraîner une perte d’informations précieuses et potentiellement conduire à des interprétations erronées. De même, la présence de valeurs non observées peut aussi affecter la confiance de votre modèle.
Dans cet exercice, votre objectif est de vérifier si le jeu de données des réservations d’hôtels contient des valeurs manquantes et d’identifier d’éventuelles valeurs non observées. Les jeux de données de référence et d’analyse sont déjà chargés, ainsi que la bibliothèque nannyml.
Petit rappel : si vous ne vous souvenez plus des types de colonnes, vous pouvez facilement explorer les données avec la méthode .head().
Cet exercice fait partie du cours
Surveiller le Machine Learning en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Define analyzed columns
selected_columns = ['country', 'lead_time', 'parking_spaces', 'hotel']
# Intialize missing values calculator
ms_calc = ____.____(
____=____,
____=____,
timestamp_column_name='timestamp'
)
# Fit, calculate and plot the results
ms_calc.fit(reference)
ms_results = ms_calc.calculate(analysis)
ms_results.plot().show()