Aan de slagGa gratis aan de slag

Leid MNAR af

In de vorige oefening heb je geoefend met het identificeren van het type ontbrekende waarden op basis van het overzicht van ontbrekende waarden. In deze oefening ga je daarmee verder om gegevens te identificeren die Missing Not at Random (MNAR) zijn.

Het overzicht van ontbrekende waarden voor de diabetes-DataFrame staat hieronder.

Je doel is om de diabetes-DataFrame te sorteren op Serum_Insulin en de correlatie tussen Skin_Fold en Serum_Insulin te bepalen.

Noteer dat we een eigen display()-functie gebruiken in plaats van plt.show() om het je makkelijker te maken de output te bekijken.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in Python

Cursus bekijken

Oefeninstructies

  • Importeer het pakket missingno als msno.
  • Sorteer de waarden van de kolom Serum_Insulin in diabetes.
  • Visualiseer het overzicht van ontbrekende waarden van Serum_Insulin met msno.matrix().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import missingno as msno
___

# Sort diabetes dataframe on 'Serum Insulin'
sorted_values = ___.___(___)

# Visualize the missingness summary of sorted
___.___(___)

# Display nullity matrix
display("/usr/local/share/datasets/matrix_sorted.png")
Code bewerken en uitvoeren