Dérive dans le jeu de données des réservations d’hôtel
Au chapitre précédent, vous avez calculé la valeur métier et la performance ROC AUC pour un modèle qui prédit les annulations de réservation. Vous avez repéré quelques alertes sur les graphiques obtenus ; il faut donc examiner la présence de dérive dans les données d’analyse.
Dans cet exercice, vous allez initialiser la méthode de détection de dérive multivariée et comparer ses résultats avec les résultats de performance calculés au chapitre précédent.
StandardDeviationThreshold est déjà importée, ainsi que la valeur métier, et les résultats ROC AUC stockés dans la variable perf_results. Les feature_column_names sont également déjà définis.
Cet exercice fait partie du cours
Surveiller le Machine Learning en Python
Instructions
- Initialisez la méthode
StandardDeviationThresholdet définissezstd_lower_multiplierà2etstd_upper_multiplierà1. - Ajoutez les variables explicatives suivantes :
country,lead_time,parking_spacesethotel. Conservez cet ordre. - Passez les seuils et noms de variables déjà définis au
DataReconstructionDriftCalculator. - Affichez le graphique de comparaison présentant à la fois les résultats de détection de dérive multivariée (
mv_results) et les résultats de performance (perf_results).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)
# Define feature columns
feature_column_names = [____, ____, ____, ____]
# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
column_names=____,
threshold = ____,
timestamp_column_name='timestamp',
chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()