Leid MNAR af
In de vorige oefening heb je geoefend met het identificeren van het type ontbrekende waarden op basis van het overzicht van ontbrekende waarden. In deze oefening ga je daarmee verder om gegevens te identificeren die Missing Not at Random (MNAR) zijn.
Het overzicht van ontbrekende waarden voor de diabetes-DataFrame staat hieronder.

Je doel is om de diabetes-DataFrame te sorteren op Serum_Insulin en de correlatie tussen Skin_Fold en Serum_Insulin te bepalen.
Noteer dat we een eigen display()-functie gebruiken in plaats van plt.show() om het je makkelijker te maken de output te bekijken.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in Python
Oefeninstructies
- Importeer het pakket
missingnoalsmsno. - Sorteer de waarden van de kolom
Serum_Insulinindiabetes. - Visualiseer het overzicht van ontbrekende waarden van
Serum_Insulinmetmsno.matrix().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import missingno as msno
___
# Sort diabetes dataframe on 'Serum Insulin'
sorted_values = ___.___(___)
# Visualize the missingness summary of sorted
___.___(___)
# Display nullity matrix
display("/usr/local/share/datasets/matrix_sorted.png")