Daten skalieren

Für ML-Algorithmen, die abstandsbasierte Metriken nutzen, ist es entscheidend, die Daten immer zu skalieren, da Merkmale auf unterschiedlichen Skalen die Ergebnisse verzerren. K-Means verwendet die euklidische Distanz, um die Entfernung zu Cluster-Zentroiden zu bewerten. Daher musst du deine Daten zuerst skalieren, bevor du den Algorithmus implementierst. Lass uns damit beginnen.

Es steht dir das DataFrame df aus der vorherigen Übung zur Verfügung, mit kleiner Datenaufbereitung, sodass es mit sklearn einsatzbereit ist. Die Fraud-Labels sind separat unter labels gespeichert; damit kannst du später die Ergebnisse prüfen. numpy wurde als np importiert.

Diese Übung ist Teil des Kurses

Betrugserkennung mit Python

Kurs anzeigen

Anleitung zur Übung

Importiere den MinMaxScaler.
Wandle dein DataFrame df in ein NumPy-Array X um, indem du nur die Werte von df nimmst, und stelle sicher, dass alle Werte float sind.
Wende den definierten Scaler auf X an, um skalierte Werte X_scaled zu erhalten, sodass alle Features auf die Skala 0–1 gebracht werden.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the scaler
from sklearn.preprocessing import ____

# Take the float values of df for X
X = df.values.astype(np.____)

# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)

Code bearbeiten und ausführen