Aan de slagGa gratis aan de slag

Controles op datakwaliteit

Zoals je in de vorige video hebt geleerd, kunnen ontbrekende waarden zorgen voor verlies van waardevolle informatie en mogelijk tot onjuiste interpretaties leiden. Op dezelfde manier kan de aanwezigheid van onbekende waarden ook het vertrouwen van je model beïnvloeden.

In deze oefening ga je onderzoeken of de hotelboekingsgegevensset ontbrekende waarden bevat en eventuele onbekende waarden identificeren. De referentie- en analysedatasets zijn al geladen, net als de nannyml-bibliotheek.

Even een snelle reminder: als je de kolomtypen niet meer weet, kun je de data eenvoudig verkennen met de methode .head().

Deze oefening maakt deel uit van de cursus

Monitoring Machine Learning in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Define analyzed columns
selected_columns = ['country', 'lead_time', 'parking_spaces', 'hotel']

# Intialize missing values calculator
ms_calc = ____.____(
    ____=____,
    ____=____,
    timestamp_column_name='timestamp'
)

# Fit, calculate and plot the results
ms_calc.fit(reference)
ms_results = ms_calc.calculate(analysis)
ms_results.plot().show()
Code bewerken en uitvoeren