ComeçarComece de graça

Revisando os resultados do LDA

Você desenvolveu um modelo de tópicos, napoleon_model, com 5 tópicos para as frases do livro Animal Farm que fazem referência ao personagem principal, Napoleon. Você pediu a 5 autores locais que revisassem as principais palavras e as frases mais representativas de cada tópico, e eles forneceram temas para cada tópico.

Para finalizar seus resultados, prepare algumas estatísticas de resumo sobre os tópicos. Você apresentará esses valores de resumo junto com os temas para sua chefe revisar.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercício

  • Extraia a matriz gamma do modelo de tópicos, napoleon_model.
  • Use funções do dplyr para criar um tibble com o principal tópico de cada frase, chamado grouped_gammas.
  • Use grouped_gammas para contar o número de frases mais similares a cada tópico.
  • Use grouped_gammas e calcule o valor médio de gamma para cada tópico.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Extract the gamma matrix 
gamma_values <- tidy(___, matrix = ___)
# Create grouped gamma tibble
grouped_gammas <- gamma_values %>%
  ___(document) %>%
  ___(desc(gamma)) %>%
  ___(1) %>%
  ___(topic)
# Count (tally) by topic
grouped_gammas %>% 
  ___(topic, sort=TRUE)
# Average topic weight for top topic for each sentence
grouped_gammas %>% 
  ___(avg=mean(gamma)) %>%
  ___(desc(avg))
Editar e executar o código