CommencerCommencer gratuitement

Clustering k-means : premier exercice

Cet exercice va vous familiariser avec l’utilisation du clustering k-means sur un jeu de données. Utilisons le jeu de données Comic Con et voyons comment k-means s’y comporte.

Rappelez-vous les deux étapes du clustering k-means :

  • Définir les centres de clusters via la fonction kmeans(). Elle prend deux arguments obligatoires : les observations et le nombre de clusters.
  • Attribuer les étiquettes de clusters via la fonction vq(). Elle prend deux arguments obligatoires : les observations et les centres de clusters.

Les données sont stockées dans un DataFrame pandas, comic_con. x_scaled et y_scaled sont les noms de colonnes des coordonnées X et Y standardisées des personnes à un instant donné.

Cet exercice fait partie du cours

Analyse de clusters en Python

Afficher le cours

Instructions

  • Importez les fonctions kmeans et vq de SciPy.
  • Générez des centres de clusters avec la fonction kmeans() en demandant deux clusters.
  • Créez des étiquettes de cluster en utilisant ces centres de clusters.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____

# Generate cluster centers
cluster_centers, distortion = ____

# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', 
                hue='cluster_labels', data = comic_con)
plt.show()
Modifier et exécuter le code