Aan de slagGa gratis aan de slag

Maak een spreidingsplot met ontbrekende waarden

In deze oefening maak je een spreidingsplot die zowel ontbrekende als niet-ontbrekende waarden bevat. Je gebruikt de functie fill_dummy_values() die je in de vorige oefening hebt gemaakt om dummywaarden in te vullen in de DataFrame diabetes_dummy.

De null-waarde-status (nullity) van een kolom wordt berekend met de methode .isnull(). Deze geeft een Series (pd.Series) met True of False terug.

Om verschillende kleuren toe te kennen aan ontbrekende en niet-ontbrekende waarden, kun je de nullity eenvoudig combineren met de OF- (|) bewerking op de kolommen die je plot. Dat resulteert in:

  • True → Ofwel col1 of col2, of beide waarden ontbreken.
  • False → Geen van de waarden in col1 en col2 ontbreekt.

De DataFrame diabetes en de functie fill_dummy_values() zijn voor je geladen.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in Python

Cursus bekijken

Oefeninstructies

  • Gebruik de OF-bewerking om de nullity van Skin_Fold en BMI te combineren.
  • Vul dummywaarden in diabetes_dummy met de functie fill_dummy_values().
  • Maak een spreidingsplot van 'BMI' tegenover 'Skin_Fold'; let op: Y tegenover X betekent Y-as tegen X-as, of Y als functie van X.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Use OR operation to combine Skin_Fold and BMI nullity
nullity = ___

# Fill dummy values in diabetes_dummy
diabetes_dummy = ___

# Create a scatter plot of BMI versus Skin_Fold
diabetes_dummy.plot(x=___, y=___, kind='___', alpha=0.5,                     
                    # Set color to nullity of BMI and Skin_Fold
                    c=___, 
                    cmap='rainbow')

plt.show()
Code bewerken en uitvoeren