Standardisierung üben

Es ist riskant, KNN blind auf unbekannten Verteilungen einzusetzen. Die Leistung leidet stark, wenn die Feature-Verteilungen nicht dieselben Skalen haben. Unskalierte Features verzerren die Distanzberechnungen und liefern dadurch unrealistische Anomalie-Scores.

Eine gängige Technik dagegen ist die Standardisierung: Dabei wird vom Feature der Mittelwert abgezogen und anschließend durch die Standardabweichung geteilt. So erhält das Feature einen Mittelwert von 0 und eine Varianz von 1.

Übe die Standardisierung am Datensatz females, der bereits für dich geladen wurde.

Diese Übung ist Teil des Kurses

<Kurs>Anomalieerkennung mit Python</Kurs>

Kurs ansehen

Übungsanweisungen

Erzeuge eine Instanz von StandardScaler() und speichere sie als ss.
Extrahiere Feature- und Target-Arrays in X und y. Das Target ist die Spalte weightkg.
Fitte StandardScaler() auf X und transformiere es gleichzeitig.
Wiederhole den obigen Schritt, erhalte dabei aber die Spaltennamen des X-DataFrames.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

from sklearn.preprocessing import StandardScaler

# Initialize a StandardScaler
ss = ____

# Extract feature and target arrays
X = ____ 
y = ____

# Fit/transform X
X_transformed = ____

# Fit/transform X but preserve the column names
X.____ = ____

Code bearbeiten und ausführen