Prestatie-inschatting voor tipvoorspelling

In de vorige oefeningen heb je een reference- en analysis-set voorbereid voor de NYC Green Taxi-gegevensset. In deze oefening gebruik je die data om de modelprestaties in productie in te schatten.

Eerst initialiseer je het DLE-algoritme met de opgegeven parameters en maak je vervolgens een visualisatie van de resultaten.

De reference- en analysis-set zijn al geladen en opgeslagen in de variabelen reference en analysis. Daarnaast is nannyml ook al geïmporteerd.

Deze oefening maakt deel uit van de cursus

Monitoring Machine Learning in Python

Oefeninstructies

Start het DLE-algoritme met een dagelijkse chunk-periode, tip_amount als y_true, en de MSE-metric.
Fit de reference-set op de DLE-estimator, schat de prestaties voor de analysis-set en sla de output op in de variabele results.
Visualiseer de resultaten met de methoden plot() en show().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

estimator = nannyml.DLE(y_pred='y_pred',
    timestamp_column_name='lpep_pickup_datetime',
    feature_column_names=features,
    chunk_period='d',
    y_true='tip_amount',
    metrics=['mse'])

# Fit the reference data to the DLE algorithm
estimator.____(____)

# Estimate the performance on the analysis data
results = estimator.____(____)

# Plot and show the results
____.____().____()

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Monitoring Machine Learning in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met de NannyML-bibliotheek en de basisfuncties. Je leert eerst hoe je ruwe data voorbereidt om referentie- en analysemappen te maken die klaar zijn voor monitoring in productie. Als praktisch voorbeeld onderzoek je hoe je het fooibedrag voor taxiritten in New York kunt voorspellen. Aan het einde van het hoofdstuk ontdek je ook hoe je met NannyML de prestaties van het fooi-voorspellingsmodel kunt schatten.

Exercise 1: Wat is NannyML?Exercise 2: Belangrijkste functies van NannyML Exercise 3: Laad de gegevensset Exercise 4: Gegevens voorbereiden voor NannyML Exercise 5: Referentie- of analyseperiode?Exercise 6: De data laden en splitsen Exercise 7: Referentie- en analyseset maken Exercise 8: Prestatie-inschatting Exercise 9: Specificeer het algoritme en het probleemtype Exercise 10: Resultaten interpreteren Exercise 11: CBPE- en DLE-workflow Exercise 12: Prestatie-inschatting voor tipvoorspelling

Huidige oefening

In dit hoofdstuk maak je kennis met gerealiseerde prestatiecalculators die je gebruikt zodra de grondwaarheid beschikbaar komt. Je leert meer geavanceerde methoden om met resultaten te werken, waaronder filteren, plotten, omzetten naar dataframes, chunking en het instellen van aangepaste drempels. Tot slot pas je dit toe om de bedrijfswaarde te berekenen van een model dat is getraind op de hotelboekingsgegevensset.

Exercise 1: Wanneer labels beschikbaar zijn Exercise 2: Als prestatieschattingen niet kloppen Exercise 3: Geschatte en gerealiseerde performance vergelijken Exercise 4: Werken met berekende en geschatte resultaten Exercise 5: Verschillende chunking-methoden Exercise 6: Drempelwaarden aanpassen Exercise 7: Werken met resultaten Exercise 8: Zakelijke waarde: berekening en schatting Exercise 9: Businesswaarde berekenen Exercise 10: Daling in geldwaarde Exercise 11: Bedrijfsberekening voor hotelboekingsgegevensset

Nu de prestatieverslechtering in het hotelboekingsmodel is gedetecteerd, leer je hoe je het onderliggende probleem identificeert dat dit veroorzaakt. In dit hoofdstuk maak je kennis met multivariate en univariate driftdetectiemethoden. Je leert ook hoe je datakwaliteitsproblemen herkent en hoe je de onderliggende oorzaken die je ontdekt aanpakt.

Exercise 1: Multivariate driftdetectie Exercise 2: Relevante drifts identificeren Exercise 3: Drift in de hotelreserveringsgegevensset Exercise 4: Univariate driftdetectie Exercise 5: Univariate driftdetectie voor de hotelboekingen-gegevensset Exercise 6: De univariate resultaten rangschikken Exercise 7: Driftende features visualiseren Exercise 8: Datakwaliteit en statistische controles Exercise 9: Controles op datakwaliteit Exercise 10: Samenvattende statistieken Exercise 11: Probleemoplossing Exercise 12: Wat is de oplossing?Exercise 13: Moet je niets doen of niet?Exercise 14: Een monitoringworkflow implementeren Exercise 15: Gefeliciteerd