LoslegenKostenlos starten

Standardisierung

Normalisierung kann hilfreich sein, um eine Spalte zwischen zwei Werten zu skalieren. Es ist jedoch schwierig, zwei skalierte Spalten zu vergleichen, wenn auch nur eine von Ausreißern stark beeinflusst wird. Eine häufig genutzte Lösung dafür ist die Standardisierung: Anstatt feste obere und untere Grenzen zu setzen, zentrierst du die Daten um ihren Mittelwert und berechnest für jeden Datenpunkt, wie viele Standardabweichungen er vom Mittelwert entfernt ist.

Diese Übung ist Teil des Kurses

<Kurs>Feature Engineering für Machine Learning in Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Importiere StandardScaler aus dem Modul preprocessing von sklearn.
  • Instanziiere den StandardScaler() als SS_scaler.
  • Fitte den StandardScaler auf die Spalte Age von so_numeric_df.
  • Transformiere dieselbe Spalte mit dem soeben gefitteten Scaler.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import StandardScaler
____

# Instantiate StandardScaler
SS_scaler = ____()

# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])

# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])

# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())
Code bearbeiten und ausführen