De data schalen

Voor ML-algoritmes die afstandsgebaseerde maten gebruiken, is het cruciaal om je data altijd te schalen, omdat kenmerken met verschillende schalen je resultaten verstoren. K-means gebruikt de Euclidische afstand om de afstand tot clustercentroids te bepalen, dus moet je eerst je data schalen voordat je het algoritme implementeert. Laten we dat eerst doen.

Beschikbaar is de dataframe df uit de vorige oefening, met wat kleine datavoorbereiding zodat je deze direct met sklearn kunt gebruiken. De fraudelabels zijn apart opgeslagen in labels; die kun je later gebruiken om de resultaten te controleren. numpy is geïmporteerd als np.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Bekijk cursus

Oefeninstructies

Importeer de MinMaxScaler.
Zet je dataframe df om naar een numpy-array X door alleen de waarden van df te nemen en zorg dat alle waarden float zijn.
Pas de gedefinieerde scaler toe op X om geschaalde waarden X_scaled te krijgen, zodat al je features op een 0-1-schaal liggen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the scaler
from sklearn.preprocessing import ____

# Take the float values of df for X
X = df.values.astype(np.____)

# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)

Code bewerken en uitvoeren