Perpleksiteyi test etme
Elinde, 2016 ABD seçimleri sırasında tweet botları tarafından atılan tweet’lerle dolu bir veri kümesi var. Yöneticin iki farklı hesap türüne odaklanıyor: Left ve Right. Senden Right tweet botlarının attığı tweet’ler üzerinde konu modelleme yapmanı istiyor. Ayrıca, bu tweet’lerin içeriğini konu modelleme ile özetlemeyi umuyor. Veride kaç konu olabileceğine dair genel bir fikir edinmek için 5, 15 ve 50 konu ile konu modelleme yap.
Bu egzersiz, kursun bir parçasıdır
R ile Doğal Dil İşlemeye Giriş
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
library(topicmodels)
# Setup train and test data
sample_size <- floor(0.90 * nrow(right_matrix))
set.seed(1111)
train_ind <- sample(nrow(right_matrix), size = sample_size)
train <- right_matrix[train_ind, ]
test <- right_matrix[-train_ind, ]
# Peform topic modeling
lda_model <- LDA(___, k = ___, method = ___,
control = list(seed = 1111))
# Train
___(lda_model, newdata = ___)
# Test
___(lda_model, newdata = ___)