MulaiMulai sekarang secara gratis

Menguji perplexity

Anda diberikan himpunan data berisi cuitan yang dikirim oleh bot Twitter selama pemilu AS 2016. Atasan Anda telah mengidentifikasi dua jenis akun yang menjadi perhatian, Left dan Right. Atasan Anda meminta Anda melakukan topic modeling pada cuitan dari bot Right. Selain itu, atasan Anda berharap dapat merangkum isi cuitan ini dengan topic modeling. Lakukan topic modeling dengan 5, 15, dan 50 topik untuk memperkirakan berapa banyak topik yang terkandung dalam data.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

library(topicmodels)
# Setup train and test data
sample_size <- floor(0.90 * nrow(right_matrix))
set.seed(1111)
train_ind <- sample(nrow(right_matrix), size = sample_size)
train <- right_matrix[train_ind, ]
test <- right_matrix[-train_ind, ]

# Peform topic modeling 
lda_model <- LDA(___, k = ___, method = ___,
                 control = list(seed = 1111))
# Train
___(lda_model, newdata = ___) 
# Test
___(lda_model, newdata = ___) 
Edit dan Jalankan Kode