Imputaties visualiseren

Het analyseren van imputaties en het kiezen van de beste is een taak die veel experimenteren vereist. Het is belangrijk om te zorgen dat je data niet bevooroordeeld raakt tijdens het imputeren. In de laatste twee oefeningen heb je 4 verschillende imputaties gemaakt met gemiddelde, mediaan, modus en een constante waarde.

In deze oefening maak je een scatterplot van de DataFrames die je eerder hebt geïmputeerd. Hiervoor maak je een dictionary van de DataFrames, waarbij de keys hun titel zijn.

De DataFrames diabetes_mean, diabetes_median, diabetes_mode en diabetes_constant zijn voor je ingeladen.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in Python

Bekijk cursus

Oefeninstructies

Maak 4 subplots door een plot te maken met 2 rijen en 2 kolommen.
Maak de dictionary imputations door elke key te koppelen aan de bijbehorende DataFrame.
Loop over axes en imputations, en plot elke DataFrame in imputations.
Stel de kleur in op de nullity en zet als titel van elke subplot de naam van de imputatie.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Set nrows and ncols to 2
fig, axes = plt.subplots(nrows=___, ncols=___, figsize=(10, 10))
nullity = diabetes.Serum_Insulin.isnull()+diabetes.Glucose.isnull()

# Create a dictionary of imputations
imputations = {'Mean Imputation': ___, 'Median Imputation': ___, 
               'Most Frequent Imputation': ___, 'Constant Imputation': ___}

# Loop over flattened axes and imputations
for ax, df_key in zip(___.___(), ___):
    # Select and also set the title for a DataFrame
    imputations[___].plot(x='Serum_Insulin', y='Glucose', kind='scatter', 
                          alpha=0.5, c=___, cmap='rainbow', ax=ax, 
                          colorbar=False, title=___)
plt.show()

Code bewerken en uitvoeren