Imputaties visualiseren
Het analyseren van imputaties en het kiezen van de beste is een taak die veel experimenteren vereist. Het is belangrijk om te zorgen dat je data niet bevooroordeeld raakt tijdens het imputeren. In de laatste twee oefeningen heb je 4 verschillende imputaties gemaakt met gemiddelde, mediaan, modus en een constante waarde.
In deze oefening maak je een scatterplot van de DataFrames die je eerder hebt geïmputeerd. Hiervoor maak je een dictionary van de DataFrames, waarbij de keys hun titel zijn.
De DataFrames diabetes_mean, diabetes_median, diabetes_mode en diabetes_constant zijn voor je ingeladen.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in Python
Oefeninstructies
- Maak 4 subplots door een plot te maken met 2 rijen en 2 kolommen.
- Maak de dictionary
imputationsdoor elke key te koppelen aan de bijbehorende DataFrame. - Loop over
axesenimputations, en plot elke DataFrame inimputations. - Stel de kleur in op de
nullityen zet als titel van elke subplot de naam van de imputatie.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set nrows and ncols to 2
fig, axes = plt.subplots(nrows=___, ncols=___, figsize=(10, 10))
nullity = diabetes.Serum_Insulin.isnull()+diabetes.Glucose.isnull()
# Create a dictionary of imputations
imputations = {'Mean Imputation': ___, 'Median Imputation': ___,
'Most Frequent Imputation': ___, 'Constant Imputation': ___}
# Loop over flattened axes and imputations
for ax, df_key in zip(___.___(), ___):
# Select and also set the title for a DataFrame
imputations[___].plot(x='Serum_Insulin', y='Glucose', kind='scatter',
alpha=0.5, c=___, cmap='rainbow', ax=ax,
colorbar=False, title=___)
plt.show()