IniziaInizia gratis

NMF impara gli argomenti dei documenti

Nel video hai visto che, quando NMF viene applicata ai documenti, le componenti corrispondono agli argomenti dei documenti e le feature NMF ricostruiscono i documenti a partire dagli argomenti. Verificalo tu stesso per il modello NMF che hai costruito in precedenza usando le voci di Wikipedia. In precedenza, hai visto che il valore della terza feature NMF era alto per gli articoli sugli attori Anne Hathaway e Denzel Washington. In questo esercizio, individua l'argomento della componente NMF corrispondente.

Il modello NMF che hai costruito prima è disponibile come model, mentre words è un elenco delle parole che etichettano le colonne della matrice di frequenza delle parole.

Quando hai finito, prenditi un momento per riconoscere l'argomento che gli articoli su Anne Hathaway e Denzel Washington hanno in comune!

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa pandas come pd.
  • Crea un DataFrame components_df da model.components_, impostando columns=words in modo che le colonne siano etichettate dalle parole.
  • Stampa components_df.shape per controllare le dimensioni del DataFrame.
  • Usa l'accessor .iloc[] sul DataFrame components_df per selezionare la riga 3. Assegna il risultato a component.
  • Chiama il metodo .nlargest() di component e stampa il risultato. Otterrai così le cinque parole con i valori più alti per quella componente.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())
Modifica ed esegui il codice