Eenvoudige imputatie

Zoals je in de vorige oefening zag, kan data verwijderen je gegevensset te veel verkleinen. In een sollicitatiecontext kan dit leiden tot bevooroordeelde resultaten van je Machine Learning-model.

Een flexibelere manier om met missende waarden om te gaan, is door ze te imputeren. Er zijn verschillende manieren om dit in Python te doen, maar in deze oefening gebruik je de functie SimpleImputer() uit de module sklearn.impute op loan_data.

Daarna gebruik je pandas en numpy om de geïmputeerde gegevensset om te zetten naar een DataFrame.

Let op dat er nu 2 stappen aan de pipeline zijn toegevoegd, Instantiate en Fit: Machine learning pipeline

Deze oefening maakt deel uit van de cursus

Machine Learning-sollicitatievragen oefenen in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import imputer module
from sklearn.impute import SimpleImputer

# Subset numeric features: numeric_cols
numeric_cols = ____.____(include=[____.____])

Code bewerken en uitvoeren