Standaardiseren
Normaliseren is handig om een kolom tussen twee waarden te schalen, maar het is lastig om twee geschaalde kolommen te vergelijken als zelfs één ervan sterk wordt beïnvloed door uitschieters. Een veelgebruikte oplossing hiervoor is standaardiseren: in plaats van een strikte onder- en bovengrens centreer je de data rond het gemiddelde en bereken je voor elk datapunt hoeveel standaarddeviaties het van het gemiddelde af ligt.
Deze oefening maakt deel uit van de cursus
Feature engineering voor Machine Learning in Python
Oefeninstructies
- Importeer
StandardScaleruit de modulepreprocessingvansklearn. - Maak een instantie van
StandardScaler()alsSS_scaler. - Fit de
StandardScalerop de kolomAgevanso_numeric_df. - Transformeer dezelfde kolom met de zojuist gefitte scaler.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import StandardScaler
____
# Instantiate StandardScaler
SS_scaler = ____()
# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])
# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])
# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())