Controles op datakwaliteit

Zoals je in de vorige video hebt geleerd, kunnen ontbrekende waarden zorgen voor verlies van waardevolle informatie en mogelijk tot onjuiste interpretaties leiden. Op dezelfde manier kan de aanwezigheid van onbekende waarden ook het vertrouwen van je model beïnvloeden.

In deze oefening ga je onderzoeken of de hotelboekingsgegevensset ontbrekende waarden bevat en eventuele onbekende waarden identificeren. De referentie- en analysedatasets zijn al geladen, net als de nannyml-bibliotheek.

Even een snelle reminder: als je de kolomtypen niet meer weet, kun je de data eenvoudig verkennen met de methode .head().

Deze oefening maakt deel uit van de cursus

Monitoring Machine Learning in Python

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Define analyzed columns
selected_columns = ['country', 'lead_time', 'parking_spaces', 'hotel']

# Intialize missing values calculator
ms_calc = ____.____(
    ____=____,
    ____=____,
    timestamp_column_name='timestamp'
)

# Fit, calculate and plot the results
ms_calc.fit(reference)
ms_results = ms_calc.calculate(analysis)
ms_results.plot().show()

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Monitoring Machine Learning in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met de NannyML-bibliotheek en de basisfuncties. Je leert eerst hoe je ruwe data voorbereidt om referentie- en analysemappen te maken die klaar zijn voor monitoring in productie. Als praktisch voorbeeld onderzoek je hoe je het fooibedrag voor taxiritten in New York kunt voorspellen. Aan het einde van het hoofdstuk ontdek je ook hoe je met NannyML de prestaties van het fooi-voorspellingsmodel kunt schatten.

Exercise 1: Wat is NannyML?Exercise 2: Belangrijkste functies van NannyML Exercise 3: Laad de gegevensset Exercise 4: Gegevens voorbereiden voor NannyML Exercise 5: Referentie- of analyseperiode?Exercise 6: De data laden en splitsen Exercise 7: Referentie- en analyseset maken Exercise 8: Prestatie-inschatting Exercise 9: Specificeer het algoritme en het probleemtype Exercise 10: Resultaten interpreteren Exercise 11: CBPE- en DLE-workflow Exercise 12: Prestatie-inschatting voor tipvoorspelling

In dit hoofdstuk maak je kennis met gerealiseerde prestatiecalculators die je gebruikt zodra de grondwaarheid beschikbaar komt. Je leert meer geavanceerde methoden om met resultaten te werken, waaronder filteren, plotten, omzetten naar dataframes, chunking en het instellen van aangepaste drempels. Tot slot pas je dit toe om de bedrijfswaarde te berekenen van een model dat is getraind op de hotelboekingsgegevensset.

Exercise 1: Wanneer labels beschikbaar zijn Exercise 2: Als prestatieschattingen niet kloppen Exercise 3: Geschatte en gerealiseerde performance vergelijken Exercise 4: Werken met berekende en geschatte resultaten Exercise 5: Verschillende chunking-methoden Exercise 6: Drempelwaarden aanpassen Exercise 7: Werken met resultaten Exercise 8: Zakelijke waarde: berekening en schatting Exercise 9: Businesswaarde berekenen Exercise 10: Daling in geldwaarde Exercise 11: Bedrijfsberekening voor hotelboekingsgegevensset

Nu de prestatieverslechtering in het hotelboekingsmodel is gedetecteerd, leer je hoe je het onderliggende probleem identificeert dat dit veroorzaakt. In dit hoofdstuk maak je kennis met multivariate en univariate driftdetectiemethoden. Je leert ook hoe je datakwaliteitsproblemen herkent en hoe je de onderliggende oorzaken die je ontdekt aanpakt.

Exercise 1: Multivariate driftdetectie Exercise 2: Relevante drifts identificeren Exercise 3: Drift in de hotelreserveringsgegevensset Exercise 4: Univariate driftdetectie Exercise 5: Univariate driftdetectie voor de hotelboekingen-gegevensset Exercise 6: De univariate resultaten rangschikken Exercise 7: Driftende features visualiseren Exercise 8: Datakwaliteit en statistische controles Exercise 9: Controles op datakwaliteit

Huidige oefening

Exercise 10: Samenvattende statistieken Exercise 11: Probleemoplossing Exercise 12: Wat is de oplossing?Exercise 13: Moet je niets doen of niet?Exercise 14: Een monitoringworkflow implementeren Exercise 15: Gefeliciteerd