Univariate driftdetectie voor de hotelboekingen-gegevensset

In de vorige oefeningen hebben we met de multivariate driftdetectiemethode vastgesteld dat de verschuiving in de gegevens in januari verantwoordelijk is voor de alert in de ROC AUC-metriek en de negatieve businesswaarde van het model.

In deze oefening gebruik je een univariate driftdetectiemethode om de feature en de verklaring achter de drift te vinden.

De reference- en analysis-sets zijn al voor je ingeladen.

Deze oefening maakt deel uit van de cursus

Monitoring Machine Learning in Python

Oefeninstructies

Specificeer de Wasserstein- en Jensen-Shannon-methode voor continue variabelen en L-infinity en Chi2 voor categorische variabelen.
Fit op de reference en bereken resultaten op de analysis-set.
Plot de resultaten.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Intialize the univariate drift calculator
uv_calc = nannyml.UnivariateDriftCalculator(
    column_names=feature_column_names,
    timestamp_column_name='timestamp',
    chunk_period='m',
    continuous_methods=[____, ____],
    categorical_methods=[____, ____],
)

# Plot the results
uv_calc.____(reference)
uv_results = uv_calc.____(analysis)
____.____().____()

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Monitoring Machine Learning in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met de NannyML-bibliotheek en de basisfuncties. Je leert eerst hoe je ruwe data voorbereidt om referentie- en analysemappen te maken die klaar zijn voor monitoring in productie. Als praktisch voorbeeld onderzoek je hoe je het fooibedrag voor taxiritten in New York kunt voorspellen. Aan het einde van het hoofdstuk ontdek je ook hoe je met NannyML de prestaties van het fooi-voorspellingsmodel kunt schatten.

Exercise 1: Wat is NannyML?Exercise 2: Belangrijkste functies van NannyML Exercise 3: Laad de gegevensset Exercise 4: Gegevens voorbereiden voor NannyML Exercise 5: Referentie- of analyseperiode?Exercise 6: De data laden en splitsen Exercise 7: Referentie- en analyseset maken Exercise 8: Prestatie-inschatting Exercise 9: Specificeer het algoritme en het probleemtype Exercise 10: Resultaten interpreteren Exercise 11: CBPE- en DLE-workflow Exercise 12: Prestatie-inschatting voor tipvoorspelling

In dit hoofdstuk maak je kennis met gerealiseerde prestatiecalculators die je gebruikt zodra de grondwaarheid beschikbaar komt. Je leert meer geavanceerde methoden om met resultaten te werken, waaronder filteren, plotten, omzetten naar dataframes, chunking en het instellen van aangepaste drempels. Tot slot pas je dit toe om de bedrijfswaarde te berekenen van een model dat is getraind op de hotelboekingsgegevensset.

Exercise 1: Wanneer labels beschikbaar zijn Exercise 2: Als prestatieschattingen niet kloppen Exercise 3: Geschatte en gerealiseerde performance vergelijken Exercise 4: Werken met berekende en geschatte resultaten Exercise 5: Verschillende chunking-methoden Exercise 6: Drempelwaarden aanpassen Exercise 7: Werken met resultaten Exercise 8: Zakelijke waarde: berekening en schatting Exercise 9: Businesswaarde berekenen Exercise 10: Daling in geldwaarde Exercise 11: Bedrijfsberekening voor hotelboekingsgegevensset

Nu de prestatieverslechtering in het hotelboekingsmodel is gedetecteerd, leer je hoe je het onderliggende probleem identificeert dat dit veroorzaakt. In dit hoofdstuk maak je kennis met multivariate en univariate driftdetectiemethoden. Je leert ook hoe je datakwaliteitsproblemen herkent en hoe je de onderliggende oorzaken die je ontdekt aanpakt.

Exercise 1: Multivariate driftdetectie Exercise 2: Relevante drifts identificeren Exercise 3: Drift in de hotelreserveringsgegevensset Exercise 4: Univariate driftdetectie Exercise 5: Univariate driftdetectie voor de hotelboekingen-gegevensset

Huidige oefening

Exercise 6: De univariate resultaten rangschikken Exercise 7: Driftende features visualiseren Exercise 8: Datakwaliteit en statistische controles Exercise 9: Controles op datakwaliteit Exercise 10: Samenvattende statistieken Exercise 11: Probleemoplossing Exercise 12: Wat is de oplossing?Exercise 13: Moet je niets doen of niet?Exercise 14: Een monitoringworkflow implementeren Exercise 15: Gefeliciteerd