Méthode du coude

Dans l’exercice précédent, vous avez implémenté MiniBatch K-means avec 8 clusters, sans vérifier au préalable quel était le bon nombre de clusters. Pour notre première approche de détection de fraude, il est essentiel de déterminer le bon nombre de clusters, surtout si vous souhaitez utiliser les valeurs aberrantes de ces clusters comme prédictions de fraude. Pour choisir le nombre de clusters à utiliser, appliquons la méthode du coude et voyons, selon cette méthode, quel nombre de clusters semble optimal.

X_scaled est à nouveau disponible et MiniBatchKMeans a été importé depuis sklearn.

Cet exercice fait partie du cours

<cours>Détection de fraude en Python</cours>

Voir le cours

Instructions de l’exercice

Définissez l’intervalle entre 1 et 5 clusters.
Exécutez MiniBatch K-means sur tous les clusters de l’intervalle à l’aide d’une compréhension de liste.
Ajustez chaque modèle sur les données normalisées et obtenez les scores à partir de ces données.
Tracez les numéros de cluster et leurs scores respectifs ; l’exécution prendra quelques secondes.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Define the range of clusters to try
clustno = range(____, ____)

# Run MiniBatch Kmeans over the number of clusters
kmeans = [____(n_clusters=i, random_state=0) for ____ in ____]

# Obtain the score for each model
score = [kmeans[i].fit(____).score(____) for i in range(len(kmeans))]

# Plot the models and their respective score 
plt.plot(____, ____)
plt.xlabel('Number of Clusters')
plt.ylabel('Score')
plt.title('Elbow Curve')
plt.show()

Modifier et exécuter le code