O NMF aprende os tópicos dos documentos
No vídeo, você aprendeu que, quando a NMF é aplicada a documentos, os componentes correspondem aos tópicos dos documentos, e os recursos da NMF reconstruem os documentos a partir dos tópicos. Confira você mesmo isso no modelo NMF que você criou antes usando os artigos da Wikipedia. Antes, você viu que o terceiro valor da característica NMF era alto para os artigos sobre os atores Anne Hathaway e Denzel Washington. Neste exercício, identifique o tema do componente NMF correspondente.
O modelo NMF que você criou anteriormente está disponível em model
, enquanto words
é uma lista das palavras que rotulam as colunas da matriz de frequência de palavras.
Depois de terminar, pare um momento para identificar o tema comum aos artigos sobre Anne Hathaway e Denzel Washington!
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções do exercício
- Importe
pandas
comopd
. - Crie um DataFrame chamado “
components_df
” a partir demodel.components_
, definindocolumns=words
para que as colunas sejam rotuladas pelas palavras. - Imprima “
components_df.shape
” para conferir as dimensões do DataFrame. - Use o acessor “
.iloc[]
” no DataFrame “components_df
” para selecionar a linha “3
”. Atribua o resultado acomponent
. - Chame o método “
.nlargest()
” de “component
” e imprima o resultado. Isso mostra as cinco palavras com os valores mais altos para esse componente.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())