Standardisierung üben
Es ist riskant, KNN blind auf unbekannten Verteilungen einzusetzen. Die Leistung leidet stark, wenn die Feature-Verteilungen nicht dieselben Skalen haben. Unskalierte Features verzerren die Distanzberechnungen und liefern dadurch unrealistische Anomalie-Scores.
Eine gängige Technik dagegen ist die Standardisierung: Dabei wird vom Feature der Mittelwert abgezogen und anschließend durch die Standardabweichung geteilt. So erhält das Feature einen Mittelwert von 0 und eine Varianz von 1.
Übe die Standardisierung am Datensatz females, der bereits für dich geladen wurde.
Diese Übung ist Teil des Kurses
Anomalieerkennung mit Python
Anleitung zur Übung
- Erzeuge eine Instanz von
StandardScaler()und speichere sie alsss. - Extrahiere Feature- und Target-Arrays in
Xundy. Das Target ist die Spalteweightkg. - Fitte
StandardScaler()auf X und transformiere es gleichzeitig. - Wiederhole den obigen Schritt, erhalte dabei aber die Spaltennamen des
X-DataFrames.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from sklearn.preprocessing import StandardScaler
# Initialize a StandardScaler
ss = ____
# Extract feature and target arrays
X = ____
y = ____
# Fit/transform X
X_transformed = ____
# Fit/transform X but preserve the column names
X.____ = ____