Motifs de regroupement uniformes
Maintenant que vous avez vu l’impact des graines aléatoires, intéressons-nous au biais de l’algorithme k-means en faveur de la formation de clusters de taille uniforme.
Utilisons un jeu de données en forme de souris pour le prochain exercice. Un tel jeu de données regroupe des points qui rappellent la tête d’une souris : trois amas de points disposés en cercles, un pour le visage et deux pour les oreilles.
Voici à quoi ressemble un jeu de données typique en forme de souris (Source).
Les données sont stockées dans un DataFrame pandas, mouse. x_scaled et y_scaled sont les noms de colonnes des coordonnées X et Y normalisées des points.
Cet exercice fait partie du cours
Analyse de clusters en Python
Instructions
- Importez les fonctions
kmeansetvqde SciPy. - Générez des centres de clusters à l’aide de la fonction
kmeans()avec trois clusters. - Créez des étiquettes de cluster avec
vq()en utilisant les centres générés ci-dessus.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the kmeans and vq functions
____
# Generate cluster centers
cluster_centers, distortion = ____
# Assign cluster labels
mouse['cluster_labels'], distortion_list = ____
# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled',
hue='cluster_labels', data = mouse)
plt.show()