Drift in de hotelreserveringsgegevensset

In het vorige hoofdstuk heb je de bedrijfswaarde en de ROC AUC-prestatie berekend voor een model dat annuleringen van boekingen voorspelt. Je zag een paar waarschuwingen in de resulterende grafieken, daarom ga je nu onderzoeken of er drift aanwezig is in de analysedata.

In deze oefening initialiseer je de multivariabele driftdetectiemethode en vergelijk je de resultaten met de prestatieresultaten die in het vorige hoofdstuk zijn berekend.

StandardDeviationThreshold is al geïmporteerd, samen met de bedrijfswaarde, en ROC AUC-resultaten die zijn opgeslagen in de variabele perf_results, en feature_column_names is al gedefinieerd.

Deze oefening maakt deel uit van de cursus

Monitoring Machine Learning in Python

Oefeninstructies

Initialiseer de methode StandardDeviationThreshold en zet std_lower_multiplier op 2 en de parameter std_upper_multiplier op 1.
Voeg de volgende eigenschapsnamen toe: country, lead_time, parking_spaces en hotel. Behoud deze volgorde.
Geef de eerder gedefinieerde drempels en eigenschapsnamen door aan de DataReconstructionDriftCalculator.
Toon de vergelijkingsplot met zowel de resultaten van de multivariabele driftdetectie (mv_results) als de prestatieresultaten (perf_results).

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create standard deviation thresholds
stdt = StandardDeviationThreshold(____=____, ____=____)

# Define feature columns
feature_column_names = [____, ____, ____, ____]

# Intialize, fit, and show results of multivariate drift calculator
mv_calc = nannyml.DataReconstructionDriftCalculator(
    column_names=____,
	threshold = ____,
    timestamp_column_name='timestamp',
    chunk_period='m')
mv_calc.fit(reference)
mv_results = mv_calc.calculate(analysis)
mv_results.filter(period='analysis').____(____).plot().show()

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Monitoring Machine Learning in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met de NannyML-bibliotheek en de basisfuncties. Je leert eerst hoe je ruwe data voorbereidt om referentie- en analysemappen te maken die klaar zijn voor monitoring in productie. Als praktisch voorbeeld onderzoek je hoe je het fooibedrag voor taxiritten in New York kunt voorspellen. Aan het einde van het hoofdstuk ontdek je ook hoe je met NannyML de prestaties van het fooi-voorspellingsmodel kunt schatten.

Exercise 1: Wat is NannyML?Exercise 2: Belangrijkste functies van NannyML Exercise 3: Laad de gegevensset Exercise 4: Gegevens voorbereiden voor NannyML Exercise 5: Referentie- of analyseperiode?Exercise 6: De data laden en splitsen Exercise 7: Referentie- en analyseset maken Exercise 8: Prestatie-inschatting Exercise 9: Specificeer het algoritme en het probleemtype Exercise 10: Resultaten interpreteren Exercise 11: CBPE- en DLE-workflow Exercise 12: Prestatie-inschatting voor tipvoorspelling

In dit hoofdstuk maak je kennis met gerealiseerde prestatiecalculators die je gebruikt zodra de grondwaarheid beschikbaar komt. Je leert meer geavanceerde methoden om met resultaten te werken, waaronder filteren, plotten, omzetten naar dataframes, chunking en het instellen van aangepaste drempels. Tot slot pas je dit toe om de bedrijfswaarde te berekenen van een model dat is getraind op de hotelboekingsgegevensset.

Exercise 1: Wanneer labels beschikbaar zijn Exercise 2: Als prestatieschattingen niet kloppen Exercise 3: Geschatte en gerealiseerde performance vergelijken Exercise 4: Werken met berekende en geschatte resultaten Exercise 5: Verschillende chunking-methoden Exercise 6: Drempelwaarden aanpassen Exercise 7: Werken met resultaten Exercise 8: Zakelijke waarde: berekening en schatting Exercise 9: Businesswaarde berekenen Exercise 10: Daling in geldwaarde Exercise 11: Bedrijfsberekening voor hotelboekingsgegevensset

Nu de prestatieverslechtering in het hotelboekingsmodel is gedetecteerd, leer je hoe je het onderliggende probleem identificeert dat dit veroorzaakt. In dit hoofdstuk maak je kennis met multivariate en univariate driftdetectiemethoden. Je leert ook hoe je datakwaliteitsproblemen herkent en hoe je de onderliggende oorzaken die je ontdekt aanpakt.

Exercise 1: Multivariate driftdetectie Exercise 2: Relevante drifts identificeren Exercise 3: Drift in de hotelreserveringsgegevensset

Huidige oefening

Exercise 4: Univariate driftdetectie Exercise 5: Univariate driftdetectie voor de hotelboekingen-gegevensset Exercise 6: De univariate resultaten rangschikken Exercise 7: Driftende features visualiseren Exercise 8: Datakwaliteit en statistische controles Exercise 9: Controles op datakwaliteit Exercise 10: Samenvattende statistieken Exercise 11: Probleemoplossing Exercise 12: Wat is de oplossing?Exercise 13: Moet je niets doen of niet?Exercise 14: Een monitoringworkflow implementeren Exercise 15: Gefeliciteerd