CommencerCommencer gratuitement

Clustering hiérarchique : méthode de Ward

C’est l’heure de la Comic-Con ! La Comic-Con est une convention annuelle autour de la BD organisée dans de grandes villes du monde. Vous disposez des données de fréquentation de l’an dernier, c’est-à-dire le nombre de personnes présentes sur le site à un instant donné. Vous souhaitez choisir l’emplacement de votre stand pour maximiser les ventes. En utilisant la méthode de Ward, appliquez un clustering hiérarchique afin d’identifier deux points d’attraction dans la zone.

Les données sont stockées dans un DataFrame pandas, comic_con. x_scaled et y_scaled sont les noms de colonnes des coordonnées X et Y standardisées des personnes à un instant donné.

Cet exercice fait partie du cours

Analyse de clusters en Python

Afficher le cours

Instructions

  • Importez fcluster et linkage depuis scipy.cluster.hierarchy.
  • Utilisez la méthode ward dans la fonction linkage().
  • Assignez les étiquettes de cluster en formant 2 clusters plats à partir de distance_matrix.
  • Exécutez le code de tracé pour visualiser les résultats.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the fcluster and linkage functions
from scipy.cluster.hierarchy import ____, ____

# Use the linkage() function
distance_matrix = ____(comic_con[['x_scaled', 'y_scaled']], ____ = ____, metric = 'euclidean')

# Assign cluster labels
comic_con['cluster_labels'] = ____(____, ____, criterion='maxclust')

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', 
                hue='cluster_labels', data = comic_con)
plt.show()
Modifier et exécuter le code