Hiërarchische clustering: ward-methode
Het is tijd voor Comic-Con! Comic-Con is een jaarlijkse conventie rond strips die in grote steden over de hele wereld wordt gehouden. Je hebt de gegevens van de bezoekersstroom van vorig jaar: het aantal mensen op het terrein op een bepaald moment. Je wilt de locatie van je kraam bepalen om de verkoop te maximaliseren. Pas met de ward-methode hiërarchische clustering toe om de twee trekpleisters in het gebied te vinden.
De gegevens staan in een pandas DataFrame, comic_con. x_scaled en y_scaled zijn de kolomnamen van de gestandaardiseerde X- en Y-coördinaten van mensen op een bepaald moment.
Deze oefening maakt deel uit van de cursus
Clusteranalyse in Python
Oefeninstructies
- Importeer
fclusterenlinkageuitscipy.cluster.hierarchy. - Gebruik de methode
wardin de functielinkage(). - Ken clusterlabels toe door 2 platte clusters te vormen uit
distance_matrix. - Voer de plotcode uit om de resultaten te zien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the fcluster and linkage functions
from scipy.cluster.hierarchy import ____, ____
# Use the linkage() function
distance_matrix = ____(comic_con[['x_scaled', 'y_scaled']], ____ = ____, metric = 'euclidean')
# Assign cluster labels
comic_con['cluster_labels'] = ____(____, ____, criterion='maxclust')
# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled',
hue='cluster_labels', data = comic_con)
plt.show()