LoslegenKostenlos loslegen

Standardisierung

Normalisierung kann hilfreich sein, um eine Spalte zwischen zwei Werten zu skalieren. Es ist jedoch schwierig, zwei skalierte Spalten zu vergleichen, wenn auch nur eine von Ausreißern stark beeinflusst wird. Eine häufig genutzte Lösung dafür ist die Standardisierung: Anstatt feste obere und untere Grenzen zu setzen, zentrierst du die Daten um ihren Mittelwert und berechnest für jeden Datenpunkt, wie viele Standardabweichungen er vom Mittelwert entfernt ist.

Diese Übung ist Teil des Kurses

Feature Engineering für Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere StandardScaler aus dem Modul preprocessing von sklearn.
  • Instanziiere den StandardScaler() als SS_scaler.
  • Fitte den StandardScaler auf die Spalte Age von so_numeric_df.
  • Transformiere dieselbe Spalte mit dem soeben gefitteten Scaler.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import StandardScaler
____

# Instantiate StandardScaler
SS_scaler = ____()

# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])

# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])

# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())
Code bearbeiten und ausführen