Aan de slagGa gratis aan de slag

Standaardiseren

Normaliseren is handig om een kolom tussen twee waarden te schalen, maar het is lastig om twee geschaalde kolommen te vergelijken als zelfs één ervan sterk wordt beïnvloed door uitschieters. Een veelgebruikte oplossing hiervoor is standaardiseren: in plaats van een strikte onder- en bovengrens centreer je de data rond het gemiddelde en bereken je voor elk datapunt hoeveel standaarddeviaties het van het gemiddelde af ligt.

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Importeer StandardScaler uit de module preprocessing van sklearn.
  • Maak een instantie van StandardScaler() als SS_scaler.
  • Fit de StandardScaler op de kolom Age van so_numeric_df.
  • Transformeer dezelfde kolom met de zojuist gefitte scaler.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import StandardScaler
____

# Instantiate StandardScaler
SS_scaler = ____()

# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])

# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])

# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())
Code bewerken en uitvoeren