Maak een spreidingsplot met ontbrekende waarden
In deze oefening maak je een spreidingsplot die zowel ontbrekende als niet-ontbrekende waarden bevat. Je gebruikt de functie fill_dummy_values() die je in de vorige oefening hebt gemaakt om dummywaarden in te vullen in de DataFrame diabetes_dummy.
De null-waarde-status (nullity) van een kolom wordt berekend met de methode .isnull(). Deze geeft een Series (pd.Series) met True of False terug.
Om verschillende kleuren toe te kennen aan ontbrekende en niet-ontbrekende waarden, kun je de nullity eenvoudig combineren met de OF- (|) bewerking op de kolommen die je plot. Dat resulteert in:
True→ Ofwelcol1ofcol2, of beide waarden ontbreken.False→ Geen van de waarden incol1encol2ontbreekt.
De DataFrame diabetes en de functie fill_dummy_values() zijn voor je geladen.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in Python
Oefeninstructies
- Gebruik de OF-bewerking om de nullity van
Skin_FoldenBMIte combineren. - Vul dummywaarden in
diabetes_dummymet de functiefill_dummy_values(). - Maak een spreidingsplot van
'BMI'tegenover'Skin_Fold'; let op: Y tegenover X betekent Y-as tegen X-as, of Y als functie van X.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Use OR operation to combine Skin_Fold and BMI nullity
nullity = ___
# Fill dummy values in diabetes_dummy
diabetes_dummy = ___
# Create a scatter plot of BMI versus Skin_Fold
diabetes_dummy.plot(x=___, y=___, kind='___', alpha=0.5,
# Set color to nullity of BMI and Skin_Fold
c=___,
cmap='rainbow')
plt.show()