K-Means-Clustering: erste Übung
Diese Übung macht dich mit der Anwendung von K-Means-Clustering auf einen Datensatz vertraut. Verwenden wir den Comic-Con-Datensatz und schauen, wie K-Means darauf funktioniert.
Erinnere dich an die zwei Schritte des K-Means-Clustering:
- Definiere Clusterzentren mit der Funktion
kmeans(). Sie hat zwei erforderliche Argumente: Beobachtungen und Anzahl der Cluster. - Weise Clusterlabels mit der Funktion
vq()zu. Sie hat zwei erforderliche Argumente: Beobachtungen und Clusterzentren.
Die Daten liegen in einem pandas DataFrame comic_con. x_scaled und y_scaled sind die Spaltennamen der standardisierten X- und Y-Koordinaten von Personen zu einem gegebenen Zeitpunkt.
Diese Übung ist Teil des Kurses
Cluster Analysis in Python
Anleitung zur Übung
- Importiere die Funktionen
kmeansundvqaus SciPy. - Erzeuge Clusterzentren mit der Funktion
kmeans()mit zwei Clustern. - Erstelle Clusterlabels mithilfe dieser Clusterzentren.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____
# Generate cluster centers
cluster_centers, distortion = ____
# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____
# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled',
hue='cluster_labels', data = comic_con)
plt.show()