Aan de slagGa gratis aan de slag

Eenvoudige imputatie

Zoals je in de vorige oefening zag, kan data verwijderen je gegevensset te veel verkleinen. In een sollicitatiecontext kan dit leiden tot bevooroordeelde resultaten van je Machine Learning-model.

Een flexibelere manier om met missende waarden om te gaan, is door ze te imputeren. Er zijn verschillende manieren om dit in Python te doen, maar in deze oefening gebruik je de functie SimpleImputer() uit de module sklearn.impute op loan_data.

Daarna gebruik je pandas en numpy om de geïmputeerde gegevensset om te zetten naar een DataFrame.

Let op dat er nu 2 stappen aan de pipeline zijn toegevoegd, Instantiate en Fit: Machine learning pipeline

Deze oefening maakt deel uit van de cursus

Machine Learning-sollicitatievragen oefenen in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import imputer module
from sklearn.impute import SimpleImputer

# Subset numeric features: numeric_cols
numeric_cols = ____.____(include=[____.____])
Code bewerken en uitvoeren