CommencerCommencer gratuitement

Contrôles de qualité des données

Comme vous l’avez vu dans la vidéo précédente, les valeurs manquantes peuvent entraîner une perte d’informations précieuses et potentiellement conduire à des interprétations erronées. De même, la présence de valeurs non observées peut aussi affecter la confiance de votre modèle.

Dans cet exercice, votre objectif est de vérifier si le jeu de données des réservations d’hôtels contient des valeurs manquantes et d’identifier d’éventuelles valeurs non observées. Les jeux de données de référence et d’analyse sont déjà chargés, ainsi que la bibliothèque nannyml.

Petit rappel : si vous ne vous souvenez plus des types de colonnes, vous pouvez facilement explorer les données avec la méthode .head().

Cet exercice fait partie du cours

Surveiller le Machine Learning en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Define analyzed columns
selected_columns = ['country', 'lead_time', 'parking_spaces', 'hotel']

# Intialize missing values calculator
ms_calc = ____.____(
    ____=____,
    ____=____,
    timestamp_column_name='timestamp'
)

# Fit, calculate and plot the results
ms_calc.fit(reference)
ms_results = ms_calc.calculate(analysis)
ms_results.plot().show()
Modifier et exécuter le code