Avvistamenti di Pokémon: clustering gerarchico

Continuiamo l’indagine sugli avvistamenti di Pokémon leggendari del precedente esercizio. Ricorda che, nello scatter plot dell’esercizio precedente, hai individuato due aree con alta densità di avvistamenti. Questo suggerisce che i punti si separano in due cluster. In questo esercizio, formerai due cluster degli avvistamenti usando il clustering gerarchico.

'x' e 'y' sono colonne con le coordinate X e Y delle posizioni degli avvistamenti, memorizzate in un DataFrame di pandas, df. Hai a disposizione: matplotlib.pyplot come plt, seaborn come sns e pandas come pd.

Questo esercizio fa parte del corso

Analisi di cluster in Python

Visualizza corso

Istruzioni dell'esercizio

Importa le librerie linkage e fcluster.
Usa la funzione linkage() per calcolare le distanze con il metodo ward.
Genera le etichette di cluster per ogni punto dati in due cluster usando la funzione fcluster().
Traccia i punti con seaborn e assegna un colore diverso a ciascun cluster.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import linkage and fcluster functions
from scipy.cluster.hierarchy import ____, ____

# Use the linkage() function to compute distance
Z = ____(____, 'ward')

# Generate cluster labels
df['cluster_labels'] = ____(____, ____, criterion='maxclust')

# Plot the points with seaborn
sns.scatterplot(x=____, y=____, hue=____, data=df)
plt.show()

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Analisi di cluster in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Prima di essere pronto a classificare articoli di notizie, è utile un'introduzione alle basi del clustering. Questo capitolo ti mette in confidenza con una classe di algoritmi di Machine Learning chiamata apprendimento non supervisionato e poi ti presenta il clustering, uno degli approcci più diffusi. Conoscerai due tecniche popolari di clustering: il clustering gerarchico e il clustering k-means. Il capitolo si chiude con i passaggi di pre-processing fondamentali prima di iniziare a eseguire il clustering sui dati.

Exercise 1: Machine Learning non supervisionato: nozioni di base Exercise 2: Unsupervised learning nel mondo reale Exercise 3: Avvistamenti di Pokémon Exercise 4: Basi dell'analisi dei cluster Exercise 5: Avvistamenti di Pokémon: clustering gerarchico

Esercizio attuale

Exercise 6: Avvistamenti di Pokémon: clustering k-means Exercise 7: Preparazione dei dati per l’analisi di clustering Exercise 8: Normalizza semplici dati in lista Exercise 9: Visualizza i dati normalizzati Exercise 10: Normalizzazione di numeri piccoli Exercise 11: FIFA 18: Normalizzare i dati

Questo capitolo è incentrato su un algoritmo di clustering molto diffuso, il clustering gerarchico, e sulla sua implementazione in SciPy. Oltre alla procedura per eseguirlo, prova ad aiutarti a rispondere a una domanda importante: quanti cluster sono presenti nei tuoi dati? Il capitolo si conclude con un confronto sui limiti del clustering gerarchico e con alcune considerazioni pratiche per il suo utilizzo.

Exercise 1: Basi del clustering gerarchico Exercise 2: Clustering gerarchico: metodo ward Exercise 3: Clustering gerarchico: metodo single Exercise 4: Clustering gerarchico: metodo complete Exercise 5: Visualizza i cluster Exercise 6: Visualizzare i cluster con matplotlib Exercise 7: Visualizza i cluster con seaborn Exercise 8: Quanti cluster?Exercise 9: Crea un dendrogramma Exercise 10: Quanti cluster nei dati del comic con?Exercise 11: Limiti del clustering gerarchico Exercise 12: Misurare i tempi del clustering gerarchico Exercise 13: FIFA 18: esplorare i difensori

Questo capitolo introduce un algoritmo di clustering diverso, il clustering k-means, e la sua implementazione in SciPy. Il clustering k-means supera il principale svantaggio del clustering gerarchico discusso nel capitolo precedente. Poiché i dendrogrammi sono specifici del clustering gerarchico, qui viene illustrato un metodo per individuare il numero di cluster prima di eseguire k-means. Il capitolo si conclude con una discussione sui limiti del clustering k-means e con considerazioni pratiche per l'uso di questo algoritmo.

Exercise 1: Basi del clustering k-means Exercise 2: K-means clustering: primo esercizio Exercise 3: Tempo di esecuzione del clustering k-means Exercise 4: Quanti cluster?Exercise 5: Metodo del gomito su cluster distinti Exercise 6: Metodo del gomito su dati uniformi Exercise 7: Limiti del clustering k-means Exercise 8: Impatto dei semi sui cluster distinti Exercise 9: Schemi di clustering uniformi Exercise 10: FIFA 18: difensori, ritorno

Ora che conosci due tra le tecniche di clustering più usate, questo capitolo ti aiuta ad applicare le conoscenze a problemi reali. Si parte dal processo per trovare i colori dominanti in un'immagine, per poi passare al problema introdotto all'inizio: il clustering degli articoli di notizie. Il capitolo si chiude con una discussione sul clustering con variabili multiple, che rende più difficile visualizzare l'intero insieme di dati.

Exercise 1: Colori dominanti nelle immagini Exercise 2: Estrai i valori RGB dall'immagine Exercise 3: Quanti colori dominanti?Exercise 4: Visualizza i colori dominanti Exercise 5: Clustering di documenti Exercise 6: TF-IDF delle trame dei film Exercise 7: Termini principali nei cluster di film Exercise 8: Clustering con più caratteristiche Exercise 9: Clustering con molte feature Exercise 10: Verifiche di base sui cluster Exercise 11: FIFA 18: cosa rende un giocatore completo?Exercise 12: Arrivederci!