Clustering di Wikipedia, parte II

È il momento di mettere al lavoro la pipeline dell'esercizio precedente! Ti vengono forniti un array articles con le frequenze tf-idf delle parole di alcuni popolari articoli di Wikipedia e una lista titles con i loro titoli. Usa la tua pipeline per raggruppare (clusterizzare) gli articoli di Wikipedia.

Una soluzione all'esercizio precedente è già stata caricata per te, quindi hai a disposizione una Pipeline pipeline che collega TruncatedSVD con KMeans.

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

Visualizza corso

Istruzioni dell'esercizio

Importa pandas come pd.
Adatta la pipeline alla matrice di frequenze delle parole articles.
Predici le etichette dei cluster.
Allinea le etichette dei cluster con la lista titles dei titoli degli articoli creando un DataFrame df con labels e titles come colonne. Questo è già stato fatto per te.
Usa il metodo .sort_values() di df per ordinare il DataFrame in base alla colonna 'label' e stampa il risultato.
Premi Invia risposta e prenditi un momento per esplorare il tuo fantastico clustering delle pagine di Wikipedia!

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Impara a individuare i gruppi sottostanti (o "cluster") in un insieme di dati. Alla fine di questo capitolo, farai il clustering delle aziende usando i loro prezzi di borsa e distinguerai specie diverse raggruppando le loro misurazioni.

Exercise 1: Unsupervised Learning Exercise 2: Quanti cluster?Exercise 3: Clustering di punti 2D Exercise 4: Esamina il tuo clustering Exercise 5: Valutare un clustering Exercise 6: Quanti cluster di cereali?Exercise 7: Valutare il clustering dei cereali Exercise 8: Trasformare le caratteristiche per cluster più efficaci Exercise 9: Scalare i dati sui pesci per il clustering Exercise 10: Clustering dei dati sui pesci Exercise 11: Clustering dei titoli azionari con KMeans Exercise 12: Quali titoli si muovono insieme?

In questo capitolo conoscerai due tecniche di apprendimento non supervisionato per la visualizzazione dei dati: clustering gerarchico e t-SNE. Il clustering gerarchico unisce i campioni in cluster via via più ampi, producendo una visualizzazione ad albero della gerarchia risultante. t-SNE mappa i campioni in uno spazio 2D in modo che si possa visualizzare la loro prossimità reciproca.

Exercise 1: Visualizzare le gerarchie Exercise 2: Quante fusioni?Exercise 3: Clustering gerarchico dei dati sui cereali Exercise 4: Gerarchie di titoli azionari Exercise 5: Etichette di cluster nel clustering gerarchico Exercise 6: Quali cluster sono più vicini?Exercise 7: Linkage diverso, clustering gerarchico diverso!Exercise 8: Raggruppamenti intermedi Exercise 9: Estrarre le etichette dei cluster Exercise 10: t-SNE per mappe bidimensionali Exercise 11: Visualizzazione t-SNE dell'insieme di dati sui cereali Exercise 12: Una mappa t-SNE del mercato azionario

La riduzione della dimensione riassume un insieme di dati sfruttando i pattern che si ripetono. In questo capitolo scoprirai la più fondamentale tra le tecniche di riduzione della dimensione, la "Principal Component Analysis" ("PCA"). La PCA è spesso usata prima dell’apprendimento supervisionato per migliorare prestazioni e generalizzazione del modello. Può essere utile anche nell’apprendimento non supervisionato. Per esempio, userai una variante della PCA che ti permetterà di raggruppare articoli di Wikipedia in base al loro contenuto!

Exercise 1: Visualizzare la trasformazione PCA Exercise 2: Dati correlati in natura Exercise 3: Decorrelare le misurazioni dei cereali con la PCA Exercise 4: Componenti principali Exercise 5: Dimensione intrinseca Exercise 6: La prima componente principale Exercise 7: Varianza delle feature della PCA Exercise 8: Dimensione intrinseca dei dati sui pesci Exercise 9: Riduzione della dimensione con PCA Exercise 10: Riduzione della dimensionalità delle misurazioni dei pesci Exercise 11: Un array di frequenze delle parole con tf-idf Exercise 12: Clustering di Wikipedia parte I Exercise 13: Clustering di Wikipedia, parte II

Esercizio attuale

In questo capitolo imparerai una tecnica di riduzione della dimensione chiamata "Non-negative matrix factorization" ("NMF"), che esprime i campioni come combinazioni di parti interpretabili. Per esempio, rappresenta i documenti come combinazioni di argomenti e le immagini in termini di pattern visivi ricorrenti. Imparerai anche a usare la NMF per costruire sistemi di raccomandazione in grado di suggerirti articoli simili da leggere o artisti musicali in linea con la tua cronologia di ascolto!

Exercise 1: Fattorizzazione di matrici non negative (NMF)Exercise 2: Dati non negativi Exercise 3: NMF applicata agli articoli di Wikipedia Exercise 4: Feature NMF degli articoli di Wikipedia Exercise 5: NMF ricostruisce i campioni Exercise 6: NMF apprende parti interpretabili Exercise 7: NMF impara gli argomenti dei documenti Exercise 8: Esplora il dataset dei numeri LED Exercise 9: NMF impara le parti delle immagini Exercise 10: PCA non apprende parti Exercise 11: Creare sistemi di raccomandazione con NMF Exercise 12: Quali articoli sono simili a 'Cristiano Ronaldo'?Exercise 13: Consiglia artisti musicali parte I Exercise 14: Consiglia artisti musicali parte II Exercise 15: Considerazioni finali