K-means clustering: primo esercizio

Questo esercizio ti aiuterà a prendere confidenza con l’uso del k-means clustering su un insieme di dati. Usiamo il dataset Comic Con per vedere come funziona il k-means clustering.

Ricorda le due fasi del k-means clustering:

Definisci i centroidi dei cluster con la funzione kmeans(). Ha due argomenti obbligatori: le osservazioni e il numero di cluster.
Assegna le etichette di cluster con la funzione vq(). Ha due argomenti obbligatori: le osservazioni e i centroidi dei cluster.

I dati sono memorizzati in un DataFrame di pandas, comic_con. x_scaled e y_scaled sono i nomi delle colonne con le coordinate X e Y standardizzate delle persone in un dato momento.

Questo esercizio fa parte del corso

Analisi di cluster in Python

Visualizza corso

Istruzioni dell'esercizio

Importa le funzioni kmeans e vq da SciPy.
Genera i centroidi dei cluster usando la funzione kmeans() con due cluster.
Crea le etichette dei cluster utilizzando questi centroidi.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____

# Generate cluster centers
cluster_centers, distortion = ____

# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', 
                hue='cluster_labels', data = comic_con)
plt.show()

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Analisi di cluster in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Prima di essere pronto a classificare articoli di notizie, è utile un'introduzione alle basi del clustering. Questo capitolo ti mette in confidenza con una classe di algoritmi di Machine Learning chiamata apprendimento non supervisionato e poi ti presenta il clustering, uno degli approcci più diffusi. Conoscerai due tecniche popolari di clustering: il clustering gerarchico e il clustering k-means. Il capitolo si chiude con i passaggi di pre-processing fondamentali prima di iniziare a eseguire il clustering sui dati.

Exercise 1: Machine Learning non supervisionato: nozioni di base Exercise 2: Unsupervised learning nel mondo reale Exercise 3: Avvistamenti di Pokémon Exercise 4: Basi dell'analisi dei cluster Exercise 5: Avvistamenti di Pokémon: clustering gerarchico Exercise 6: Avvistamenti di Pokémon: clustering k-means Exercise 7: Preparazione dei dati per l’analisi di clustering Exercise 8: Normalizza semplici dati in lista Exercise 9: Visualizza i dati normalizzati Exercise 10: Normalizzazione di numeri piccoli Exercise 11: FIFA 18: Normalizzare i dati

Questo capitolo è incentrato su un algoritmo di clustering molto diffuso, il clustering gerarchico, e sulla sua implementazione in SciPy. Oltre alla procedura per eseguirlo, prova ad aiutarti a rispondere a una domanda importante: quanti cluster sono presenti nei tuoi dati? Il capitolo si conclude con un confronto sui limiti del clustering gerarchico e con alcune considerazioni pratiche per il suo utilizzo.

Exercise 1: Basi del clustering gerarchico Exercise 2: Clustering gerarchico: metodo ward Exercise 3: Clustering gerarchico: metodo single Exercise 4: Clustering gerarchico: metodo complete Exercise 5: Visualizza i cluster Exercise 6: Visualizzare i cluster con matplotlib Exercise 7: Visualizza i cluster con seaborn Exercise 8: Quanti cluster?Exercise 9: Crea un dendrogramma Exercise 10: Quanti cluster nei dati del comic con?Exercise 11: Limiti del clustering gerarchico Exercise 12: Misurare i tempi del clustering gerarchico Exercise 13: FIFA 18: esplorare i difensori

Questo capitolo introduce un algoritmo di clustering diverso, il clustering k-means, e la sua implementazione in SciPy. Il clustering k-means supera il principale svantaggio del clustering gerarchico discusso nel capitolo precedente. Poiché i dendrogrammi sono specifici del clustering gerarchico, qui viene illustrato un metodo per individuare il numero di cluster prima di eseguire k-means. Il capitolo si conclude con una discussione sui limiti del clustering k-means e con considerazioni pratiche per l'uso di questo algoritmo.

Exercise 1: Basi del clustering k-means Exercise 2: K-means clustering: primo esercizio

Esercizio attuale

Exercise 3: Tempo di esecuzione del clustering k-means Exercise 4: Quanti cluster?Exercise 5: Metodo del gomito su cluster distinti Exercise 6: Metodo del gomito su dati uniformi Exercise 7: Limiti del clustering k-means Exercise 8: Impatto dei semi sui cluster distinti Exercise 9: Schemi di clustering uniformi Exercise 10: FIFA 18: difensori, ritorno

Ora che conosci due tra le tecniche di clustering più usate, questo capitolo ti aiuta ad applicare le conoscenze a problemi reali. Si parte dal processo per trovare i colori dominanti in un'immagine, per poi passare al problema introdotto all'inizio: il clustering degli articoli di notizie. Il capitolo si chiude con una discussione sul clustering con variabili multiple, che rende più difficile visualizzare l'intero insieme di dati.

Exercise 1: Colori dominanti nelle immagini Exercise 2: Estrai i valori RGB dall'immagine Exercise 3: Quanti colori dominanti?Exercise 4: Visualizza i colori dominanti Exercise 5: Clustering di documenti Exercise 6: TF-IDF delle trame dei film Exercise 7: Termini principali nei cluster di film Exercise 8: Clustering con più caratteristiche Exercise 9: Clustering con molte feature Exercise 10: Verifiche di base sui cluster Exercise 11: FIFA 18: cosa rende un giocatore completo?Exercise 12: Arrivederci!