IniziaInizia gratis

K-means clustering: primo esercizio

Questo esercizio ti aiuterà a prendere confidenza con l’uso del k-means clustering su un insieme di dati. Usiamo il dataset Comic Con per vedere come funziona il k-means clustering.

Ricorda le due fasi del k-means clustering:

  • Definisci i centroidi dei cluster con la funzione kmeans(). Ha due argomenti obbligatori: le osservazioni e il numero di cluster.
  • Assegna le etichette di cluster con la funzione vq(). Ha due argomenti obbligatori: le osservazioni e i centroidi dei cluster.

I dati sono memorizzati in un DataFrame di pandas, comic_con. x_scaled e y_scaled sono i nomi delle colonne con le coordinate X e Y standardizzate delle persone in un dato momento.

Questo esercizio fa parte del corso

Analisi di cluster in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa le funzioni kmeans e vq da SciPy.
  • Genera i centroidi dei cluster usando la funzione kmeans() con due cluster.
  • Crea le etichette dei cluster utilizzando questi centroidi.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____

# Generate cluster centers
cluster_centers, distortion = ____

# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', 
                hue='cluster_labels', data = comic_con)
plt.show()
Modifica ed esegui il codice