NMF aprende tópicos de documentos
No vídeo, você aprendeu que quando o NMF é aplicado a documentos, os componentes correspondem a tópicos de documentos e os recursos do NMF reconstroem os documentos a partir dos tópicos. Verifique você mesmo isso para o modelo NMF que você construiu anteriormente usando os artigos da Wikipedia. Anteriormente, você viu que o valor do recurso 3rd NMF era alto para os artigos sobre os atores Anne Hathaway e Denzel Washington. Neste exercício, você deve identificar o tópico do componente correspondente do site NMF.
O modelo NMF que você criou anteriormente está disponível como model, enquanto words é uma lista das palavras que rotulam as colunas da matriz de frequência de palavras.
Depois que você terminar, reserve um momento para reconhecer o tópico que os artigos sobre Anne Hathaway e Denzel Washington têm em comum!
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções do exercício
- Importe
pandascomopd. - Crie um DataFrame
components_dfa partir demodel.components_, configurandocolumns=wordspara que as colunas sejam rotuladas pelas palavras. - Imprimir
components_df.shapepara verificar as dimensões do DataFrame. - Use o acessor
.iloc[]no DataFramecomponents_dfpara selecionar a linha3. Atribua o resultado acomponent. - Chame o método
.nlargest()decomponente imprima o resultado. Isso fornece as cinco palavras com os valores mais altos para esse componente.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())