Perpleksiteyi test etme
Elinde, 2016 ABD seçimleri sırasında tweet botları tarafından atılan tweet’lerle dolu bir veri kümesi var. Yöneticin iki farklı hesap türüne odaklanıyor: Left ve Right. Senden Right tweet botlarının attığı tweet’ler üzerinde konu modelleme yapmanı istiyor. Ayrıca, bu tweet’lerin içeriğini konu modelleme ile özetlemeyi umuyor. Veride kaç konu olabileceğine dair genel bir fikir edinmek için 5, 15 ve 50 konu ile konu modelleme yap.
Bu egzersiz
R ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
library(topicmodels)
# Setup train and test data
sample_size <- floor(0.90 * nrow(right_matrix))
set.seed(1111)
train_ind <- sample(nrow(right_matrix), size = sample_size)
train <- right_matrix[train_ind, ]
test <- right_matrix[-train_ind, ]
# Peform topic modeling
lda_model <- LDA(___, k = ___, method = ___,
control = list(seed = 1111))
# Train
___(lda_model, newdata = ___)
# Test
___(lda_model, newdata = ___)