Dichtheidsplots vergelijken

De verschillende imputaties die je eerder hebt uitgevoerd, kun je grafisch vergelijken met hun dichtheidsplots. Met deze plots kun je eenvoudig analyseren en bepalen welke gegevensset de meest vergelijkbare verdeling heeft ten opzichte van de oorspronkelijke gegevensset. Je kunt ook zien hoe een imputatie bevooroordeeld kan zijn.

In deze oefening vergelijk je de dichtheidsplots van de geimputeerde DataFrames voor diabetes die je eerder hebt gemaakt.

De DataFrames diabetes_cc, diabetes_mean_imputed, diabetes_knn_imputed en diabetes_mice_imputed zijn al voor je ingeladen, samen met matplotlib.pyplot als plt.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in Python

Bekijk cursus

Oefeninstructies

Plot een dichtheidsplot voor de kolom 'Skin_Fold' voor elk DataFrame.
Stel de labels in met de lijst labels.
Zet het label voor de x-as op 'Skin Fold'.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Plot graphs of imputed DataFrames and the complete case
diabetes_cc['___'].___(___='___', c='red', linewidth=3)
diabetes_mean_imputed['___'].plot(___='___')
diabetes_knn_imputed['___'].plot(___='___')
diabetes_mice_imputed['___'].plot(___='___')

# Create labels for the four DataFrames
labels = ['Baseline (Complete Case)', 'Mean Imputation', 'KNN Imputation', 'MICE Imputation']
plt.legend(___)

# Set the x-label as Skin Fold
plt.xlabel('___')

plt.show()

Code bewerken en uitvoeren