Drift in de hotelreserveringsgegevensset
In het vorige hoofdstuk heb je de bedrijfswaarde en de ROC AUC-prestatie berekend voor een model dat annuleringen van boekingen voorspelt. Je zag een paar waarschuwingen in de resulterende grafieken, daarom ga je nu onderzoeken of er drift aanwezig is in de analysedata.
In deze oefening initialiseer je de multivariabele driftdetectiemethode en vergelijk je de resultaten met de prestatieresultaten die in het vorige hoofdstuk zijn berekend.
StandardDeviationThreshold is al geïmporteerd, samen met de bedrijfswaarde, en ROC AUC-resultaten die zijn opgeslagen in de variabele perf_results, en feature_column_names is al gedefinieerd.
Deze oefening maakt deel uit van de cursus
Monitoring Machine Learning in Python
Oefeninstructies
- Initialiseer de methode
StandardDeviationThresholden zetstd_lower_multiplierop2en de parameterstd_upper_multiplierop1. - Voeg de volgende eigenschapsnamen toe:
country,lead_time,parking_spacesenhotel. Behoud deze volgorde. - Geef de eerder gedefinieerde drempels en eigenschapsnamen door aan de
DataReconstructionDriftCalculator. - Toon de vergelijkingsplot met zowel de resultaten van de multivariabele driftdetectie (
mv_results) als de prestatieresultaten (perf_results).
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)
# Define feature columns
feature_column_names = [____, ____, ____, ____]
# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
column_names=____,
threshold = ____,
timestamp_column_name='timestamp',
chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()