Clustering gerarchico: metodo ward
È tempo di Comic-Con! Comic-Con è una convention annuale dedicata ai fumetti che si tiene nelle principali città del mondo. Hai i dati dell'affluenza dell'anno scorso, cioè il numero di persone presenti nell'area della convention in un dato momento. Vuoi decidere dove posizionare il tuo stand per massimizzare le vendite. Usando il metodo ward, applica il clustering gerarchico per trovare i due punti di attrazione nell'area.
I dati sono in un DataFrame di pandas, comic_con. x_scaled e y_scaled sono i nomi delle colonne con le coordinate X e Y standardizzate delle persone in un dato momento.
Questo esercizio fa parte del corso
Analisi di cluster in Python
Istruzioni dell'esercizio
- Importa
fclusterelinkagedascipy.cluster.hierarchy. - Usa il metodo
wardnella funzionelinkage(). - Assegna le etichette di cluster formando 2 cluster piatti da
distance_matrix. - Esegui il codice di plotting per vedere i risultati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the fcluster and linkage functions
from scipy.cluster.hierarchy import ____, ____
# Use the linkage() function
distance_matrix = ____(comic_con[['x_scaled', 'y_scaled']], ____ = ____, metric = 'euclidean')
# Assign cluster labels
comic_con['cluster_labels'] = ____(____, ____, criterion='maxclust')
# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled',
hue='cluster_labels', data = comic_con)
plt.show()