Revisando os resultados do LDA
Você desenvolveu um modelo de tópicos, napoleon_model, com 5 tópicos para as frases do livro Animal Farm que fazem referência ao personagem principal, Napoleon. Você pediu a 5 autores locais que revisassem as principais palavras e as frases mais representativas de cada tópico, e eles forneceram temas para cada tópico.
Para finalizar seus resultados, prepare algumas estatísticas de resumo sobre os tópicos. Você apresentará esses valores de resumo junto com os temas para sua chefe revisar.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Instruções do exercício
- Extraia a matriz gamma do modelo de tópicos,
napoleon_model. - Use funções do
dplyrpara criar um tibble com o principal tópico de cada frase, chamadogrouped_gammas. - Use
grouped_gammaspara contar o número de frases mais similares a cada tópico. - Use
grouped_gammase calcule o valor médio de gamma para cada tópico.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Extract the gamma matrix
gamma_values <- tidy(___, matrix = ___)
# Create grouped gamma tibble
grouped_gammas <- gamma_values %>%
___(document) %>%
___(desc(gamma)) %>%
___(1) %>%
___(topic)
# Count (tally) by topic
grouped_gammas %>%
___(topic, sort=TRUE)
# Average topic weight for top topic for each sentence
grouped_gammas %>%
___(avg=mean(gamma)) %>%
___(desc(avg))