Aan de slagGa gratis aan de slag

Uitschieters verwerken

In de vorige oefening leerde je hoe het visualiseren van uitschieters handig kan zijn in een Machine Learning-sollicitatie. Een andere handige manier om met uitschieters om te gaan is het berekenen van de Z-score, die een drempel geeft voor uitschieters van ongeveer +/-3 standaarddeviaties van het gemiddelde.

In deze oefening gebruik je de module scipy.stats om de Z-score te berekenen met de functie stats.zscore() en de functie mstats.winsorize() om uitschieters te vervangen met een techniek die Winsoriseren heet.

Onthoud uit de video dat punten boven en/of onder 1,5 keer de IQR als mogelijke uitschieters worden gezien. Voor de laatste stap in deze oefening is die waarde 2120.

De relevante pakketten zijn voor je geïmporteerd en de numerieke en categorische kolommen van loan_data zijn gefilterd en respectievelijk opgeslagen als numeric_cols en categoric_cols.

Machine learning-pijplijn

Deze oefening maakt deel uit van de cursus

Machine Learning-sollicitatievragen oefenen in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Print: before dropping
print(numeric_cols.mean())
print(numeric_cols.median())
print(numeric_cols.max())

# Create index of rows to keep
idx = (np.____(stats.____(____)) < 3).all(axis=1)

# Concatenate numeric and categoric subsets
ld_out_drop = pd.concat([numeric_cols.loc[____], categoric_cols.loc[____]], axis=1)

# Print: after dropping
print(ld_out_drop.mean())
print(ld_out_drop.median())
print(ld_out_drop.max())
Code bewerken en uitvoeren