Standardisierung
Normalisierung kann hilfreich sein, um eine Spalte zwischen zwei Werten zu skalieren. Es ist jedoch schwierig, zwei skalierte Spalten zu vergleichen, wenn auch nur eine von Ausreißern stark beeinflusst wird. Eine häufig genutzte Lösung dafür ist die Standardisierung: Anstatt feste obere und untere Grenzen zu setzen, zentrierst du die Daten um ihren Mittelwert und berechnest für jeden Datenpunkt, wie viele Standardabweichungen er vom Mittelwert entfernt ist.
Diese Übung ist Teil des Kurses
Feature Engineering für Machine Learning in Python
Anleitung zur Übung
- Importiere
StandardScaleraus dem Modulpreprocessingvonsklearn. - Instanziiere den
StandardScaler()alsSS_scaler. - Fitte den
StandardScalerauf die SpalteAgevonso_numeric_df. - Transformiere dieselbe Spalte mit dem soeben gefitteten Scaler.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import StandardScaler
____
# Instantiate StandardScaler
SS_scaler = ____()
# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])
# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])
# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())