Eenvoudige imputatie
Zoals je in de vorige oefening zag, kan data verwijderen je gegevensset te veel verkleinen. In een sollicitatiecontext kan dit leiden tot bevooroordeelde resultaten van je Machine Learning-model.
Een flexibelere manier om met missende waarden om te gaan, is door ze te imputeren. Er zijn verschillende manieren om dit in Python te doen, maar in deze oefening gebruik je de functie SimpleImputer() uit de module sklearn.impute op loan_data.
Daarna gebruik je pandas en numpy om de geïmputeerde gegevensset om te zetten naar een DataFrame.
Let op dat er nu 2 stappen aan de pipeline zijn toegevoegd, Instantiate en Fit:

Deze oefening maakt deel uit van de cursus
Machine Learning-sollicitatievragen oefenen in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import imputer module
from sklearn.impute import SimpleImputer
# Subset numeric features: numeric_cols
numeric_cols = ____.____(include=[____.____])