K-means clustering: primo esercizio
Questo esercizio ti aiuterà a prendere confidenza con l’uso del k-means clustering su un insieme di dati. Usiamo il dataset Comic Con per vedere come funziona il k-means clustering.
Ricorda le due fasi del k-means clustering:
- Definisci i centroidi dei cluster con la funzione
kmeans(). Ha due argomenti obbligatori: le osservazioni e il numero di cluster. - Assegna le etichette di cluster con la funzione
vq(). Ha due argomenti obbligatori: le osservazioni e i centroidi dei cluster.
I dati sono memorizzati in un DataFrame di pandas, comic_con. x_scaled e y_scaled sono i nomi delle colonne con le coordinate X e Y standardizzate delle persone in un dato momento.
Questo esercizio fa parte del corso
Analisi di cluster in Python
Istruzioni dell'esercizio
- Importa le funzioni
kmeansevqda SciPy. - Genera i centroidi dei cluster usando la funzione
kmeans()con due cluster. - Crea le etichette dei cluster utilizzando questi centroidi.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____
# Generate cluster centers
cluster_centers, distortion = ____
# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____
# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled',
hue='cluster_labels', data = comic_con)
plt.show()