K-means clustering: eerste oefening
In deze oefening maak je kennis met het gebruik van k-means clustering op een gegevensset. We gebruiken de Comic Con-gegevensset en bekijken hoe k-means clustering daarop werkt.
Herinner de twee stappen van k-means clustering:
- Definieer clustercentra met de functie
kmeans(). Die heeft twee verplichte argumenten: observaties en het aantal clusters. - Ken clusterlabels toe met de functie
vq(). Die heeft twee verplichte argumenten: observaties en clustercentra.
De data staat in een pandas DataFrame, comic_con. x_scaled en y_scaled zijn de kolomnamen van de gestandaardiseerde X- en Y-coördinaten van mensen op een bepaald moment.
Deze oefening maakt deel uit van de cursus
Clusteranalyse in Python
Oefeninstructies
- Importeer de functies
kmeansenvqin SciPy. - Genereer clustercentra met de functie
kmeans()met twee clusters. - Maak clusterlabels met deze clustercentra.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____
# Generate cluster centers
cluster_centers, distortion = ____
# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____
# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled',
hue='cluster_labels', data = comic_con)
plt.show()