Prática com LDA
Você está interessado nos temas comuns em torno do personagem Napoleão no seu novo livro favorito, A Revolução dos Bichos. Napoleão é um porco que convence seus camaradas a derrubar seus líderes humanos. Ele também acaba se tornando o novo líder da Granja dos Bichos.
Você extraiu todas as frases que mencionam o nome de Napoleão, pig_sentences, e criou uma versão tokenizada dessas frases com as stop words removidas e stemming concluído, pig_tokens. Execute LDA nessas frases e revise as palavras mais frequentes associadas a alguns dos tópicos.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Instruções do exercício
- Execute LDA em
pig_matrixidentificando 10 tópicos. Defina a semente aleatória como1111para reprodutibilidade. - Extraia a matriz beta dos resultados.
- Filtre a matriz beta apenas para o tópico 2 e ordene os valores por beta em ordem decrescente.
- Filtre a matriz beta apenas para o tópico 3 e ordene os valores por beta em ordem decrescente.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
library(topicmodels)
# Perform Topic Modeling
sentence_lda <-
___(___, k = ___, method = 'Gibbs', control = list(seed = ___))
# Extract the beta matrix
sentence_betas <- ___(sentence_lda, matrix = "___")
# Topic #2
sentence_betas %>%
___(topic == ___) %>%
arrange(-___)
# Topic #3
sentence_betas %>%
___(topic == ___) %>%
arrange(-___)