De data schalen
Voor ML-algoritmes die afstandsgebaseerde maten gebruiken, is het cruciaal om je data altijd te schalen, omdat kenmerken met verschillende schalen je resultaten verstoren. K-means gebruikt de Euclidische afstand om de afstand tot clustercentroids te bepalen, dus moet je eerst je data schalen voordat je het algoritme implementeert. Laten we dat eerst doen.
Beschikbaar is de dataframe df uit de vorige oefening, met wat kleine datavoorbereiding zodat je deze direct met sklearn kunt gebruiken. De fraudelabels zijn apart opgeslagen in labels; die kun je later gebruiken om de resultaten te controleren. numpy is geïmporteerd als np.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Importeer de
MinMaxScaler. - Zet je dataframe
dfom naar een numpy-arrayXdoor alleen de waarden vandfte nemen en zorg dat alle waardenfloatzijn. - Pas de gedefinieerde scaler toe op
Xom geschaalde waardenX_scaledte krijgen, zodat al je features op een 0-1-schaal liggen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the scaler
from sklearn.preprocessing import ____
# Take the float values of df for X
X = df.values.astype(np.____)
# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)