NMF impara gli argomenti dei documenti

Nel video hai visto che, quando NMF viene applicata ai documenti, le componenti corrispondono agli argomenti dei documenti e le feature NMF ricostruiscono i documenti a partire dagli argomenti. Verificalo tu stesso per il modello NMF che hai costruito in precedenza usando le voci di Wikipedia. In precedenza, hai visto che il valore della terza feature NMF era alto per gli articoli sugli attori Anne Hathaway e Denzel Washington. In questo esercizio, individua l'argomento della componente NMF corrispondente.

Il modello NMF che hai costruito prima è disponibile come model, mentre words è un elenco delle parole che etichettano le colonne della matrice di frequenza delle parole.

Quando hai finito, prenditi un momento per riconoscere l'argomento che gli articoli su Anne Hathaway e Denzel Washington hanno in comune!

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

Visualizza corso

Istruzioni dell'esercizio

Importa pandas come pd.
Crea un DataFrame components_df da model.components_, impostando columns=words in modo che le colonne siano etichettate dalle parole.
Stampa components_df.shape per controllare le dimensioni del DataFrame.
Usa l'accessor .iloc[] sul DataFrame components_df per selezionare la riga 3. Assegna il risultato a component.
Chiama il metodo .nlargest() di component e stampa il risultato. Otterrai così le cinque parole con i valori più alti per quella componente.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Impara a individuare i gruppi sottostanti (o "cluster") in un insieme di dati. Alla fine di questo capitolo, farai il clustering delle aziende usando i loro prezzi di borsa e distinguerai specie diverse raggruppando le loro misurazioni.

Exercise 1: Unsupervised Learning Exercise 2: Quanti cluster?Exercise 3: Clustering di punti 2D Exercise 4: Esamina il tuo clustering Exercise 5: Valutare un clustering Exercise 6: Quanti cluster di cereali?Exercise 7: Valutare il clustering dei cereali Exercise 8: Trasformare le caratteristiche per cluster più efficaci Exercise 9: Scalare i dati sui pesci per il clustering Exercise 10: Clustering dei dati sui pesci Exercise 11: Clustering dei titoli azionari con KMeans Exercise 12: Quali titoli si muovono insieme?

In questo capitolo conoscerai due tecniche di apprendimento non supervisionato per la visualizzazione dei dati: clustering gerarchico e t-SNE. Il clustering gerarchico unisce i campioni in cluster via via più ampi, producendo una visualizzazione ad albero della gerarchia risultante. t-SNE mappa i campioni in uno spazio 2D in modo che si possa visualizzare la loro prossimità reciproca.

Exercise 1: Visualizzare le gerarchie Exercise 2: Quante fusioni?Exercise 3: Clustering gerarchico dei dati sui cereali Exercise 4: Gerarchie di titoli azionari Exercise 5: Etichette di cluster nel clustering gerarchico Exercise 6: Quali cluster sono più vicini?Exercise 7: Linkage diverso, clustering gerarchico diverso!Exercise 8: Raggruppamenti intermedi Exercise 9: Estrarre le etichette dei cluster Exercise 10: t-SNE per mappe bidimensionali Exercise 11: Visualizzazione t-SNE dell'insieme di dati sui cereali Exercise 12: Una mappa t-SNE del mercato azionario

La riduzione della dimensione riassume un insieme di dati sfruttando i pattern che si ripetono. In questo capitolo scoprirai la più fondamentale tra le tecniche di riduzione della dimensione, la "Principal Component Analysis" ("PCA"). La PCA è spesso usata prima dell’apprendimento supervisionato per migliorare prestazioni e generalizzazione del modello. Può essere utile anche nell’apprendimento non supervisionato. Per esempio, userai una variante della PCA che ti permetterà di raggruppare articoli di Wikipedia in base al loro contenuto!

Exercise 1: Visualizzare la trasformazione PCA Exercise 2: Dati correlati in natura Exercise 3: Decorrelare le misurazioni dei cereali con la PCA Exercise 4: Componenti principali Exercise 5: Dimensione intrinseca Exercise 6: La prima componente principale Exercise 7: Varianza delle feature della PCA Exercise 8: Dimensione intrinseca dei dati sui pesci Exercise 9: Riduzione della dimensione con PCA Exercise 10: Riduzione della dimensionalità delle misurazioni dei pesci Exercise 11: Un array di frequenze delle parole con tf-idf Exercise 12: Clustering di Wikipedia parte I Exercise 13: Clustering di Wikipedia, parte II

In questo capitolo imparerai una tecnica di riduzione della dimensione chiamata "Non-negative matrix factorization" ("NMF"), che esprime i campioni come combinazioni di parti interpretabili. Per esempio, rappresenta i documenti come combinazioni di argomenti e le immagini in termini di pattern visivi ricorrenti. Imparerai anche a usare la NMF per costruire sistemi di raccomandazione in grado di suggerirti articoli simili da leggere o artisti musicali in linea con la tua cronologia di ascolto!

Exercise 1: Fattorizzazione di matrici non negative (NMF)Exercise 2: Dati non negativi Exercise 3: NMF applicata agli articoli di Wikipedia Exercise 4: Feature NMF degli articoli di Wikipedia Exercise 5: NMF ricostruisce i campioni Exercise 6: NMF apprende parti interpretabili Exercise 7: NMF impara gli argomenti dei documenti

Esercizio attuale

Exercise 8: Esplora il dataset dei numeri LED Exercise 9: NMF impara le parti delle immagini Exercise 10: PCA non apprende parti Exercise 11: Creare sistemi di raccomandazione con NMF Exercise 12: Quali articoli sono simili a 'Cristiano Ronaldo'?Exercise 13: Consiglia artisti musicali parte I Exercise 14: Consiglia artisti musicali parte II Exercise 15: Considerazioni finali