Aan de slagGa gratis aan de slag

K-means clustering: eerste oefening

In deze oefening maak je kennis met het gebruik van k-means clustering op een gegevensset. We gebruiken de Comic Con-gegevensset en bekijken hoe k-means clustering daarop werkt.

Herinner de twee stappen van k-means clustering:

  • Definieer clustercentra met de functie kmeans(). Die heeft twee verplichte argumenten: observaties en het aantal clusters.
  • Ken clusterlabels toe met de functie vq(). Die heeft twee verplichte argumenten: observaties en clustercentra.

De data staat in een pandas DataFrame, comic_con. x_scaled en y_scaled zijn de kolomnamen van de gestandaardiseerde X- en Y-coördinaten van mensen op een bepaald moment.

Deze oefening maakt deel uit van de cursus

Clusteranalyse in Python

Cursus bekijken

Oefeninstructies

  • Importeer de functies kmeans en vq in SciPy.
  • Genereer clustercentra met de functie kmeans() met twee clusters.
  • Maak clusterlabels met deze clustercentra.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____

# Generate cluster centers
cluster_centers, distortion = ____

# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', 
                hue='cluster_labels', data = comic_con)
plt.show()
Code bewerken en uitvoeren