Daten skalieren
Für ML-Algorithmen, die abstandsbasierte Metriken nutzen, ist es entscheidend, die Daten immer zu skalieren, da Merkmale auf unterschiedlichen Skalen die Ergebnisse verzerren. K-Means verwendet die euklidische Distanz, um die Entfernung zu Cluster-Zentroiden zu bewerten. Daher musst du deine Daten zuerst skalieren, bevor du den Algorithmus implementierst. Lass uns damit beginnen.
Es steht dir das DataFrame df aus der vorherigen Übung zur Verfügung, mit kleiner Datenaufbereitung, sodass es mit sklearn einsatzbereit ist. Die Fraud-Labels sind separat unter labels gespeichert; damit kannst du später die Ergebnisse prüfen. numpy wurde als np importiert.
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Anleitung zur Übung
- Importiere den
MinMaxScaler. - Wandle dein DataFrame
dfin ein NumPy-ArrayXum, indem du nur die Werte vondfnimmst, und stelle sicher, dass alle Wertefloatsind. - Wende den definierten Scaler auf
Xan, um skalierte WerteX_scaledzu erhalten, sodass alle Features auf die Skala 0–1 gebracht werden.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the scaler
from sklearn.preprocessing import ____
# Take the float values of df for X
X = df.values.astype(np.____)
# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)