Atribuindo tópicos a documentos
Criar modelos LDA não serve para nada se você não conseguir interpretar e usar os resultados. Você recebeu os resultados da execução de um modelo LDA, sentence_lda, sobre um conjunto de sentenças, pig_sentences. Você precisa explorar as matrizes beta, palavras principais por tópico, e gamma, tópicos principais por documento, para entender completamente os resultados de qualquer análise LDA.
Com base no que você sabe sobre essas duas matrizes, extraia os resultados para um tópico específico e veja se a saída corresponde ao esperado.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Instruções do exercício
- Crie um tibble para as matrizes
betaegamma. - Explore o tópico 5 olhando as palavras de topo do tópico 5, organizando os resultados em ordem decrescente de
beta. - Explore o tópico 5 vendo quais sentenças mais se alinham a ele, organizando os resultados em ordem decrescente de
gamma.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Extract the beta and gamma matrices
sentence_betas <- tidy(sentence_lda, ___ = "___")
sentence_gammas <- tidy(sentence_lda, ___ = "___")
# Explore Topic 5 Betas
___ %>%
___(topic == ___) %>%
arrange(-___)
# Explore Topic 5 Gammas
___ %>%
___(topic == ___) %>%
arrange(-___)