Menguji perplexity
Anda diberikan himpunan data berisi cuitan yang dikirim oleh bot Twitter selama pemilu AS 2016. Atasan Anda telah mengidentifikasi dua jenis akun yang menjadi perhatian, Left dan Right. Atasan Anda meminta Anda melakukan topic modeling pada cuitan dari bot Right. Selain itu, atasan Anda berharap dapat merangkum isi cuitan ini dengan topic modeling. Lakukan topic modeling dengan 5, 15, dan 50 topik untuk memperkirakan berapa banyak topik yang terkandung dalam data.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
library(topicmodels)
# Setup train and test data
sample_size <- floor(0.90 * nrow(right_matrix))
set.seed(1111)
train_ind <- sample(nrow(right_matrix), size = sample_size)
train <- right_matrix[train_ind, ]
test <- right_matrix[-train_ind, ]
# Peform topic modeling
lda_model <- LDA(___, k = ___, method = ___,
control = list(seed = 1111))
# Train
___(lda_model, newdata = ___)
# Test
___(lda_model, newdata = ___)