Clustering K-means

Un algorithme de clustering très utilisé est le clustering K-means. Pour la détection de fraude, K-means est simple à mettre en œuvre et suffisamment puissant pour repérer des cas suspects. C’est un bon point de départ lorsque vous travaillez sur des problèmes de détection de fraude. Cependant, les données de fraude sont souvent très volumineuses, en particulier lorsqu’il s’agit de données de transactions. MiniBatch K-means est une méthode efficace pour appliquer K-means sur un grand jeu de données, et c’est celle que vous allez utiliser dans cet exercice.

Les données normalisées de l’exercice précédent, X_scaled, sont disponibles. Essayons-les.

Cet exercice fait partie du cours

<cours>Détection de fraude en Python</cours>

Voir le cours

Instructions de l’exercice

Importez MiniBatchKMeans depuis sklearn.
Initialisez le modèle minibatch k-means avec 8 clusters.
Ajustez le modèle à vos données normalisées.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import MiniBatchKmeans 
from sklearn.cluster import ____

# Define the model 
kmeans = ____(n_clusters=____, random_state=0)

# Fit the model to the scaled data
kmeans.____(____)

Modifier et exécuter le code