Aan de slagGa gratis aan de slag

Drift in de hotelreserveringsgegevensset

In het vorige hoofdstuk heb je de bedrijfswaarde en de ROC AUC-prestatie berekend voor een model dat annuleringen van boekingen voorspelt. Je zag een paar waarschuwingen in de resulterende grafieken, daarom ga je nu onderzoeken of er drift aanwezig is in de analysedata.

In deze oefening initialiseer je de multivariabele driftdetectiemethode en vergelijk je de resultaten met de prestatieresultaten die in het vorige hoofdstuk zijn berekend.

StandardDeviationThreshold is al geïmporteerd, samen met de bedrijfswaarde, en ROC AUC-resultaten die zijn opgeslagen in de variabele perf_results, en feature_column_names is al gedefinieerd.

Deze oefening maakt deel uit van de cursus

Monitoring Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Initialiseer de methode StandardDeviationThreshold en zet std_lower_multiplier op 2 en de parameter std_upper_multiplier op 1.
  • Voeg de volgende eigenschapsnamen toe: country, lead_time, parking_spaces en hotel. Behoud deze volgorde.
  • Geef de eerder gedefinieerde drempels en eigenschapsnamen door aan de DataReconstructionDriftCalculator.
  • Toon de vergelijkingsplot met zowel de resultaten van de multivariabele driftdetectie (mv_results) als de prestatieresultaten (perf_results).

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)

# Define feature columns
feature_column_names = [____, ____, ____, ____]

# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
    column_names=____,
	threshold = ____,
    timestamp_column_name='timestamp',
    chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()
Code bewerken en uitvoeren