K-means-clustering
Een veelgebruikt clustering-algoritme is K-means-clustering. Voor fraudedetectie is K-means-clustering eenvoudig te implementeren en redelijk krachtig in het voorspellen van verdachte gevallen. Het is een goed algoritme om mee te beginnen bij fraudedetectieproblemen. Fraudedata is echter vaak erg groot, zeker wanneer je met transactiegegevens werkt. MiniBatch K-means is een efficiënte manier om K-means toe te passen op een grote gegevensset; die gebruik je in deze oefening.
De geschaalde data uit de vorige oefening, X_scaled, is beschikbaar. Laten we het proberen.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Importeer
MiniBatchKMeansuitsklearn. - Initialiseer het minibatch kmeans-model met 8 clusters.
- Train het model op je geschaalde data.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import MiniBatchKmeans
from sklearn.cluster import ____
# Define the model
kmeans = ____(n_clusters=____, random_state=0)
# Fit the model to the scaled data
kmeans.____(____)