CommencerCommencer gratuitement

Dérive dans le jeu de données des réservations d’hôtel

Au chapitre précédent, vous avez calculé la valeur métier et la performance ROC AUC pour un modèle qui prédit les annulations de réservation. Vous avez repéré quelques alertes sur les graphiques obtenus ; il faut donc examiner la présence de dérive dans les données d’analyse.

Dans cet exercice, vous allez initialiser la méthode de détection de dérive multivariée et comparer ses résultats avec les résultats de performance calculés au chapitre précédent.

StandardDeviationThreshold est déjà importée, ainsi que la valeur métier, et les résultats ROC AUC stockés dans la variable perf_results. Les feature_column_names sont également déjà définis.

Cet exercice fait partie du cours

Surveiller le Machine Learning en Python

Afficher le cours

Instructions

  • Initialisez la méthode StandardDeviationThreshold et définissez std_lower_multiplier à 2 et std_upper_multiplier à 1.
  • Ajoutez les variables explicatives suivantes : country, lead_time, parking_spaces et hotel. Conservez cet ordre.
  • Passez les seuils et noms de variables déjà définis au DataReconstructionDriftCalculator.
  • Affichez le graphique de comparaison présentant à la fois les résultats de détection de dérive multivariée (mv_results) et les résultats de performance (perf_results).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)

# Define feature columns
feature_column_names = [____, ____, ____, ____]

# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
    column_names=____,
	threshold = ____,
    timestamp_column_name='timestamp',
    chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()
Modifier et exécuter le code