LoslegenKostenlos loslegen

Standardisierung üben

Es ist riskant, KNN blind auf unbekannten Verteilungen einzusetzen. Die Leistung leidet stark, wenn die Feature-Verteilungen nicht dieselben Skalen haben. Unskalierte Features verzerren die Distanzberechnungen und liefern dadurch unrealistische Anomalie-Scores.

Eine gängige Technik dagegen ist die Standardisierung: Dabei wird vom Feature der Mittelwert abgezogen und anschließend durch die Standardabweichung geteilt. So erhält das Feature einen Mittelwert von 0 und eine Varianz von 1.

Übe die Standardisierung am Datensatz females, der bereits für dich geladen wurde.

Diese Übung ist Teil des Kurses

Anomalieerkennung mit Python

Kurs anzeigen

Anleitung zur Übung

  • Erzeuge eine Instanz von StandardScaler() und speichere sie als ss.
  • Extrahiere Feature- und Target-Arrays in X und y. Das Target ist die Spalte weightkg.
  • Fitte StandardScaler() auf X und transformiere es gleichzeitig.
  • Wiederhole den obigen Schritt, erhalte dabei aber die Spaltennamen des X-DataFrames.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from sklearn.preprocessing import StandardScaler

# Initialize a StandardScaler
ss = ____

# Extract feature and target arrays
X = ____ 
y = ____

# Fit/transform X
X_transformed = ____

# Fit/transform X but preserve the column names
X.____ = ____
Code bearbeiten und ausführen