Ga je verwijderen?
Voordat je ontbrekende waarden helemaal verwijdert, moet je de factoren voor verwijdering afwegen. De eenvoudigste factor is de omvang van de missende data. Complexere oorzaken van missendheid kunnen domeinkennis vereisen. In deze oefening bepaal je eerst de reden van de missendheid en voer je daarna de juiste vorm van verwijdering uit.
Je gebruikt eerst msno.matrix() en msno.heatmap() om de missendheid en de correlatie tussen variabelen met ontbrekende waarden te visualiseren. Vervolgens bepaal je het patroon in de missendheid. Tot slot verwijder je data afhankelijk van het type missendheid.
De diabetes DataFrame is alvast voor je ingeladen.
Let op: we gebruiken een eigen display()-functie in plaats van plt.show() zodat je de output makkelijker kunt bekijken.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Visualize the missingness in the data
___.___(___)
# Display nullity matrix
display("/usr/local/share/datasets/matrix_diabetes.png")