ComeçarComece de graça

O NMF aprende os tópicos dos documentos

No vídeo, você aprendeu que, quando a NMF é aplicada a documentos, os componentes correspondem aos tópicos dos documentos, e os recursos da NMF reconstruem os documentos a partir dos tópicos. Confira você mesmo isso no modelo NMF que você criou antes usando os artigos da Wikipedia. Antes, você viu que o terceiro valor da característica NMF era alto para os artigos sobre os atores Anne Hathaway e Denzel Washington. Neste exercício, identifique o tema do componente NMF correspondente.

O modelo NMF que você criou anteriormente está disponível em model, enquanto words é uma lista das palavras que rotulam as colunas da matriz de frequência de palavras.

Depois de terminar, pare um momento para identificar o tema comum aos artigos sobre Anne Hathaway e Denzel Washington!

Este exercício faz parte do curso

Aprendizado não supervisionado em Python

Ver curso

Instruções do exercício

  • Importe pandas como pd.
  • Crie um DataFrame chamado “ components_df ” a partir de model.components_, definindo columns=words para que as colunas sejam rotuladas pelas palavras.
  • Imprima “ components_df.shape ” para conferir as dimensões do DataFrame.
  • Use o acessor “ .iloc[] ” no DataFrame “ components_df ” para selecionar a linha “ 3 ”. Atribua o resultado a component.
  • Chame o método “ .nlargest() ” de “ component ” e imprima o resultado. Isso mostra as cinco palavras com os valores mais altos para esse componente.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())
Editar e executar o código