Testando perplexidade
Você recebeu um conjunto de dados cheio de tweets enviados por bots durante a eleição dos EUA de 2016. Sua liderança identificou dois tipos de contas de interesse, Left e Right. Você foi solicitado a realizar modelagem de tópicos nos tweets dos bots Right. Além disso, a intenção é resumir o conteúdo desses tweets por meio de modelagem de tópicos. Execute a modelagem de tópicos com 5, 15 e 50 tópicos para ter uma ideia geral de quantos tópicos existem nos dados.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
library(topicmodels)
# Setup train and test data
sample_size <- floor(0.90 * nrow(right_matrix))
set.seed(1111)
train_ind <- sample(nrow(right_matrix), size = sample_size)
train <- right_matrix[train_ind, ]
test <- right_matrix[-train_ind, ]
# Peform topic modeling
lda_model <- LDA(___, k = ___, method = ___,
control = list(seed = 1111))
# Train
___(lda_model, newdata = ___)
# Test
___(lda_model, newdata = ___)