NMF aprende tópicos de documentos

No vídeo, você aprendeu que quando o NMF é aplicado a documentos, os componentes correspondem a tópicos de documentos e os recursos do NMF reconstroem os documentos a partir dos tópicos. Verifique você mesmo isso para o modelo NMF que você construiu anteriormente usando os artigos da Wikipedia. Anteriormente, você viu que o valor do recurso 3rd NMF era alto para os artigos sobre os atores Anne Hathaway e Denzel Washington. Neste exercício, você deve identificar o tópico do componente correspondente do site NMF.

O modelo NMF que você criou anteriormente está disponível como model, enquanto words é uma lista das palavras que rotulam as colunas da matriz de frequência de palavras.

Depois que você terminar, reserve um momento para reconhecer o tópico que os artigos sobre Anne Hathaway e Denzel Washington têm em comum!

Este exercicio faz parte do curso

Unsupervised Learning em Python

Instruções do exercicio

Importe pandas como pd.
Crie um DataFrame components_df a partir de model.components_, configurando columns=words para que as colunas sejam rotuladas pelas palavras.
Imprimir components_df.shape para verificar as dimensões do DataFrame.
Use o acessor .iloc[] no DataFrame components_df para selecionar a linha 3. Atribua o resultado a component.
Chame o método .nlargest() de component e imprima o resultado. Isso fornece as cinco palavras com os valores mais altos para esse componente.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())

Editar e Executar Código

Este exercicio faz parte do curso

Unsupervised Learning em Python

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Aprenda a descobrir os grupos subjacentes (ou "clusters") em um conjunto de dados. Ao final deste capítulo, você estará agrupando empresas usando seus preços no mercado de ações e distinguindo diferentes espécies ao clusterizar suas medições.

Exercise 1: Aprendizagem não supervisionada Exercise 2: Quantos clusters você tem?Exercise 3: Agrupamento de pontos 2D Exercise 4: Inspecione seu clustering Exercise 5: Avaliação de um clustering Exercise 6: Quantos cachos de grãos você tem?Exercise 7: Avaliação do agrupamento de grãos Exercise 8: Transformação de recursos para melhores agrupamentos Exercise 9: Dimensionamento de dados de peixes para agrupamento Exercise 10: Agrupamento dos dados de peixes Exercise 11: Agrupamento de ações usando KMeans Exercise 12: Quais ações se movem juntas?

Neste capítulo, você vai conhecer duas técnicas de aprendizado não supervisionado para visualização de dados: clusterização hierárquica e t-SNE. A clusterização hierárquica combina as amostras em clusters cada vez mais amplos, gerando uma visualização em árvore da hierarquia resultante. O t-SNE mapeia as amostras para um espaço 2D para que a proximidade entre elas possa ser visualizada.

Exercise 1: Visualização de hierarquias Exercise 2: Quantas fusões você fez?Exercise 3: Agrupamento hierárquico dos dados de grãos Exercise 4: Hierarquias de estoques Exercise 5: Rótulos de cluster em clustering hierárquico Exercise 6: Quais clusters estão mais próximos?Exercise 7: Diferentes vínculos, diferentes agrupamentos hierárquicos!Exercise 8: Agrupamentos intermediários Exercise 9: Extração dos rótulos de cluster Exercise 10: t-SNE para mapas bidimensionais Exercise 11: t-SNE visualização do conjunto de dados de grãos Exercise 12: Um mapa t-SNE do mercado de ações

A redução de dimensão resume um conjunto de dados usando seus padrões recorrentes. Neste capítulo, você vai aprender a mais fundamental das técnicas de redução de dimensão, a "Análise de Componentes Principais" ("PCA"). A PCA é frequentemente usada antes do aprendizado supervisionado para melhorar o desempenho e a capacidade de generalização do modelo. Ela também pode ser útil no aprendizado não supervisionado. Por exemplo, você vai aplicar uma variante de PCA que permitirá agrupar artigos da Wikipedia pelo conteúdo!

Exercise 1: Visualizando a transformação PCA Exercise 2: Dados correlacionados na natureza Exercise 3: Decorrelacionando as medições de grãos com PCA Exercise 4: Componentes principais Exercise 5: Dimensão intrínseca Exercise 6: O primeiro componente principal Exercise 7: Variação dos recursos do site PCA Exercise 8: Dimensão intrínseca dos dados do peixe Exercise 9: Redução da dimensão com PCA Exercise 10: Redução da dimensão das medições de peixes Exercise 11: Um array de frequência de palavras com tf-idf Exercise 12: Agrupamento da Wikipédia parte I Exercise 13: Agrupamento de partes da Wikipédia II

Neste capítulo, você vai aprender uma técnica de redução de dimensão chamada "Fatoração de Matrizes Não Negativas" ("NMF"), que expressa amostras como combinações de partes interpretáveis. Por exemplo, ela representa documentos como combinações de tópicos e imagens em termos de padrões visuais recorrentes. Você também vai usar NMF para construir sistemas de recomendação que possam encontrar artigos semelhantes para você ler ou artistas musicais que combinem com seu histórico de escuta!

Exercise 1: Fatoração de matriz não negativa (NMF)Exercise 2: Dados não negativos Exercise 3: NMF aplicado a artigos da Wikipédia Exercise 4: NMF recursos dos artigos da Wikipédia Exercise 5: NMF reconstrói amostras Exercise 6: NMF aprende partes interpretáveis Exercise 7: NMF aprende tópicos de documentos

Exercicio Atual

Exercise 8: Explore o conjunto de dados de LED dígitos Exercise 9: NMF aprende as partes das imagens Exercise 10: PCA não aprende as partes Exercise 11: Criação de sistemas de recomendação usando NMF Exercise 12: Quais artigos são semelhantes a "Cristiano Ronaldo"?Exercise 13: Recomendar artistas musicais - parte I Exercise 14: Recomendar a parte de artistas musicais II Exercise 15: Considerações finais