Raad het type missingness
Het analyseren van het type missingness helpt je bepalen wat de beste manier is om met ontbrekende waarden om te gaan. De Pima Indians diabetes-gegevensset staat erom bekend ontbrekende waarden te bevatten. Pima Indians is een etnische groep met een verhoogd risico op diabetes. De gegevensset bevat verschillende laboratoriumtests die zijn uitgevoerd bij leden van deze gemeenschap.
In de videoles heb je de 3 typen patronen van missingness geleerd. In deze oefening visualiseer je eerst de samenvatting van de missingness en bepaal je daarna welke typen missingness in de DataFrame voorkomen.
De DataFrame is al voor je ingeladen als diabetes.
Let op: we gebruiken een eigen display()-functie in plaats van plt.show() zodat je het resultaat makkelijker kunt bekijken.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import missingno as msno
___
# Visualize the missingness summary
___
# Display nullity matrix
display("/usr/local/share/datasets/matrix_diabetes.png")