CommencerCommencer gratuitement

Motifs de regroupement uniformes

Maintenant que vous avez vu l’impact des graines aléatoires, intéressons-nous au biais de l’algorithme k-means en faveur de la formation de clusters de taille uniforme.

Utilisons un jeu de données en forme de souris pour le prochain exercice. Un tel jeu de données regroupe des points qui rappellent la tête d’une souris : trois amas de points disposés en cercles, un pour le visage et deux pour les oreilles.

Voici à quoi ressemble un jeu de données typique en forme de souris (Source).

Les données sont stockées dans un DataFrame pandas, mouse. x_scaled et y_scaled sont les noms de colonnes des coordonnées X et Y normalisées des points.

Cet exercice fait partie du cours

Analyse de clusters en Python

Afficher le cours

Instructions

  • Importez les fonctions kmeans et vq de SciPy.
  • Générez des centres de clusters à l’aide de la fonction kmeans() avec trois clusters.
  • Créez des étiquettes de cluster avec vq() en utilisant les centres générés ci-dessus.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the kmeans and vq functions
____

# Generate cluster centers
cluster_centers, distortion = ____

# Assign cluster labels
mouse['cluster_labels'], distortion_list = ____

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', 
                hue='cluster_labels', data = mouse)
plt.show()
Modifier et exécuter le code