Dérive dans le jeu de données des réservations d’hôtel

Au chapitre précédent, vous avez calculé la valeur métier et la performance ROC AUC pour un modèle qui prédit les annulations de réservation. Vous avez repéré quelques alertes sur les graphiques obtenus ; il faut donc examiner la présence de dérive dans les données d’analyse.

Dans cet exercice, vous allez initialiser la méthode de détection de dérive multivariée et comparer ses résultats avec les résultats de performance calculés au chapitre précédent.

StandardDeviationThreshold est déjà importée, ainsi que la valeur métier, et les résultats ROC AUC stockés dans la variable perf_results. Les feature_column_names sont également déjà définis.

Cet exercice fait partie du cours

Surveiller le Machine Learning en Python

Afficher le cours

Instructions

Initialisez la méthode StandardDeviationThreshold et définissez std_lower_multiplier à 2 et std_upper_multiplier à 1.
Ajoutez les variables explicatives suivantes : country, lead_time, parking_spaces et hotel. Conservez cet ordre.
Passez les seuils et noms de variables déjà définis au DataReconstructionDriftCalculator.
Affichez le graphique de comparaison présentant à la fois les résultats de détection de dérive multivariée (mv_results) et les résultats de performance (perf_results).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)

# Define feature columns
feature_column_names = [____, ____, ____, ____]

# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
    column_names=____,
	threshold = ____,
    timestamp_column_name='timestamp',
    chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()

Modifier et exécuter le code

Cet exercice fait partie du cours

Surveiller le Machine Learning en Python

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous découvrirez la bibliothèque NannyML et ses fonctions essentielles. Vous apprendrez d’abord à préparer des données brutes pour créer des ensembles de référence et d’analyse prêts pour le monitoring en production. Comme exemple pratique, vous étudierez la prédiction du montant du pourboire pour des courses de taxi à New York. En fin de chapitre, vous verrez aussi comment estimer les performances du modèle de prédiction des pourboires avec NannyML.

Exercise 1: Qu’est-ce que NannyML ?Exercise 2: Fonctionnalités clés de NannyML Exercise 3: Charger le jeu de données Exercise 4: Préparation des données pour NannyML Exercise 5: Période de référence ou d’analyse ?Exercise 6: Chargement et découpage des données Exercise 7: Création des ensembles de référence et d’analyse Exercise 8: Estimation des performances Exercise 9: Spécifier l’algorithme et le type de problème Exercise 10: Interpréter les résultats Exercise 11: Workflow CBPE et DLE Exercise 12: Estimation des performances pour la prédiction du pourboire

Dans ce chapitre, vous découvrirez les calculateurs de performance réalisée utilisés lorsque la vérité terrain devient disponible. Vous verrez des méthodes plus avancées pour exploiter les résultats, notamment filtrer, tracer, les convertir en data frames, les regrouper par blocs (« chunking ») et définir des seuils personnalisés. Enfin, vous appliquerez ces notions pour calculer la valeur métier d’un modèle entraîné sur le jeu de données de réservations d’hôtel.

Exercise 1: Quand les étiquettes sont disponibles Exercise 2: Quand l’estimation des performances est erronée Exercise 3: Comparer les performances estimées et réalisées Exercise 4: Travailler avec des résultats calculés et estimés Exercise 5: Différentes méthodes de découpage en segments Exercise 6: Modifier les seuils Exercise 7: Interagir avec les résultats Exercise 8: Calcul et estimation de la valeur métier Exercise 9: Calcul de la valeur business Exercise 10: Baisse de la valeur monétaire Exercise 11: Calcul de la valeur métier pour le jeu de données des réservations d’hôtel

Après avoir détecté une dégradation des performances du modèle de réservation d’hôtel, vous apprendrez à identifier le problème sous-jacent qui en est la cause. Dans ce chapitre, vous serez initié aux méthodes de détection de dérive multivariée et univariée. Vous verrez également comment identifier des problèmes de qualité de données et comment corriger les causes profondes détectées.

Exercise 1: Détection de dérive multivariée Exercise 2: Identifier les dérives pertinentes Exercise 3: Dérive dans le jeu de données des réservations d’hôtel

Exercice en cours

Exercise 4: Détection de dérive univariée Exercise 5: Détection de dérive univariée pour le jeu de données des réservations d’hôtel Exercise 6: Classer les résultats univariés Exercise 7: Visualiser les variables en dérive Exercise 8: Contrôles de qualité des données et de statistiques Exercise 9: Contrôles de qualité des données Exercise 10: Statistiques récapitulatives Exercise 11: Résolution des problèmes Exercise 12: Quelle est la résolution ?Exercise 13: Faut-il ne rien faire ou pas ?Exercise 14: Mettre en place un workflow de monitoring Exercise 15: Félicitations