LoslegenKostenlos loslegen

K-Means-Clustering: erste Übung

Diese Übung macht dich mit der Anwendung von K-Means-Clustering auf einen Datensatz vertraut. Verwenden wir den Comic-Con-Datensatz und schauen, wie K-Means darauf funktioniert.

Erinnere dich an die zwei Schritte des K-Means-Clustering:

  • Definiere Clusterzentren mit der Funktion kmeans(). Sie hat zwei erforderliche Argumente: Beobachtungen und Anzahl der Cluster.
  • Weise Clusterlabels mit der Funktion vq() zu. Sie hat zwei erforderliche Argumente: Beobachtungen und Clusterzentren.

Die Daten liegen in einem pandas DataFrame comic_con. x_scaled und y_scaled sind die Spaltennamen der standardisierten X- und Y-Koordinaten von Personen zu einem gegebenen Zeitpunkt.

Diese Übung ist Teil des Kurses

Cluster Analysis in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Funktionen kmeans und vq aus SciPy.
  • Erzeuge Clusterzentren mit der Funktion kmeans() mit zwei Clustern.
  • Erstelle Clusterlabels mithilfe dieser Clusterzentren.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____

# Generate cluster centers
cluster_centers, distortion = ____

# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', 
                hue='cluster_labels', data = comic_con)
plt.show()
Code bearbeiten und ausführen