NMF impara gli argomenti dei documenti
Nel video hai visto che, quando NMF viene applicata ai documenti, le componenti corrispondono agli argomenti dei documenti e le feature NMF ricostruiscono i documenti a partire dagli argomenti. Verificalo tu stesso per il modello NMF che hai costruito in precedenza usando le voci di Wikipedia. In precedenza, hai visto che il valore della terza feature NMF era alto per gli articoli sugli attori Anne Hathaway e Denzel Washington. In questo esercizio, individua l'argomento della componente NMF corrispondente.
Il modello NMF che hai costruito prima è disponibile come model, mentre words è un elenco delle parole che etichettano le colonne della matrice di frequenza delle parole.
Quando hai finito, prenditi un momento per riconoscere l'argomento che gli articoli su Anne Hathaway e Denzel Washington hanno in comune!
Questo esercizio fa parte del corso
Apprendimento non supervisionato in Python
Istruzioni dell'esercizio
- Importa
pandascomepd. - Crea un DataFrame
components_dfdamodel.components_, impostandocolumns=wordsin modo che le colonne siano etichettate dalle parole. - Stampa
components_df.shapeper controllare le dimensioni del DataFrame. - Usa l'accessor
.iloc[]sul DataFramecomponents_dfper selezionare la riga3. Assegna il risultato acomponent. - Chiama il metodo
.nlargest()dicomponente stampa il risultato. Otterrai così le cinque parole con i valori più alti per quella componente.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())