Standardisierung
Normalisierung kann hilfreich sein, um eine Spalte zwischen zwei Werten zu skalieren. Es ist jedoch schwierig, zwei skalierte Spalten zu vergleichen, wenn auch nur eine von Ausreißern stark beeinflusst wird. Eine häufig genutzte Lösung dafür ist die Standardisierung: Anstatt feste obere und untere Grenzen zu setzen, zentrierst du die Daten um ihren Mittelwert und berechnest für jeden Datenpunkt, wie viele Standardabweichungen er vom Mittelwert entfernt ist.
Diese Übung ist Teil des Kurses
<Kurs>Feature Engineering für Machine Learning in Python</Kurs>Übungsanweisungen
- Importiere
StandardScaleraus dem Modulpreprocessingvonsklearn. - Instanziiere den
StandardScaler()alsSS_scaler. - Fitte den
StandardScalerauf die SpalteAgevonso_numeric_df. - Transformiere dieselbe Spalte mit dem soeben gefitteten Scaler.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import StandardScaler
____
# Instantiate StandardScaler
SS_scaler = ____()
# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])
# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])
# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())