Imputatie met gemiddelde en mediaan
Missende waarden imputeren is de beste aanpak wanneer je met grote hoeveelheden data werkt. De eenvoudigste methoden zijn het invullen van een constante, het gemiddelde van de variabele of andere basisstatistieken zoals de mediaan en de modus.
In deze oefening ga je de missende waarden imputeren met het gemiddelde en de mediaan voor elke kolom. De DataFrame diabetes is al voor je ingeladen. SimpleImputer() uit sklearn.impute is ook geïmporteerd en kun je zo gebruiken.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Make a copy of diabetes
diabetes_mean = diabetes.copy(deep=True)
# Create mean imputer object
mean_imputer = SimpleImputer(___=___)
# Impute mean values in the DataFrame diabetes_mean
diabetes_mean.iloc[:, :] = mean_imputer.___(___)