ComeçarComece gratuitamente

NMF aprende tópicos de documentos

No vídeo, você aprendeu que quando o NMF é aplicado a documentos, os componentes correspondem a tópicos de documentos e os recursos do NMF reconstroem os documentos a partir dos tópicos. Verifique você mesmo isso para o modelo NMF que você construiu anteriormente usando os artigos da Wikipedia. Anteriormente, você viu que o valor do recurso 3rd NMF era alto para os artigos sobre os atores Anne Hathaway e Denzel Washington. Neste exercício, você deve identificar o tópico do componente correspondente do site NMF.

O modelo NMF que você criou anteriormente está disponível como model, enquanto words é uma lista das palavras que rotulam as colunas da matriz de frequência de palavras.

Depois que você terminar, reserve um momento para reconhecer o tópico que os artigos sobre Anne Hathaway e Denzel Washington têm em comum!

Este exercício faz parte do curso

Aprendizado não supervisionado em Python

Ver Curso

Instruções de exercício

  • Importe pandas como pd.
  • Crie um DataFrame components_df a partir de model.components_, configurando columns=words para que as colunas sejam rotuladas pelas palavras.
  • Imprimir components_df.shape para verificar as dimensões do DataFrame.
  • Use o acessor .iloc[] no DataFrame components_df para selecionar a linha 3. Atribua o resultado a component.
  • Chame o método .nlargest() de component e imprima o resultado. Isso fornece as cinco palavras com os valores mais altos para esse componente.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())
Editar e executar código