NMF aprende tópicos de documentos
No vídeo, você aprendeu que quando o NMF é aplicado a documentos, os componentes correspondem a tópicos de documentos e os recursos do NMF reconstroem os documentos a partir dos tópicos. Verifique você mesmo isso para o modelo NMF que você construiu anteriormente usando os artigos da Wikipedia. Anteriormente, você viu que o valor do recurso 3rd NMF era alto para os artigos sobre os atores Anne Hathaway e Denzel Washington. Neste exercício, você deve identificar o tópico do componente correspondente do site NMF.
O modelo NMF que você criou anteriormente está disponível como model
, enquanto words
é uma lista das palavras que rotulam as colunas da matriz de frequência de palavras.
Depois que você terminar, reserve um momento para reconhecer o tópico que os artigos sobre Anne Hathaway e Denzel Washington têm em comum!
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções de exercício
- Importe
pandas
comopd
. - Crie um DataFrame
components_df
a partir demodel.components_
, configurandocolumns=words
para que as colunas sejam rotuladas pelas palavras. - Imprimir
components_df.shape
para verificar as dimensões do DataFrame. - Use o acessor
.iloc[]
no DataFramecomponents_df
para selecionar a linha3
. Atribua o resultado acomponent
. - Chame o método
.nlargest()
decomponent
e imprima o resultado. Isso fornece as cinco palavras com os valores mais altos para esse componente.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())