Perplexity testen
Du hast einen Datensatz mit Tweets erhalten, die während der US-Wahl 2016 von Tweet-Bots gesendet wurden. Deine Chefin/dein Chef hat zwei relevante Kontotypen identifiziert: Left und Right. Du sollst Topic Modeling auf den Tweets der Right-Bots durchführen. Außerdem soll der Inhalt dieser Tweets mithilfe von Topic Modeling zusammengefasst werden. Führe Topic Modeling mit 5, 15 und 50 Themen durch, um ein allgemeines Gefühl dafür zu bekommen, wie viele Themen im Datensatz enthalten sind.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Natural Language Processing mit R</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
library(topicmodels)
# Setup train and test data
sample_size <- floor(0.90 * nrow(right_matrix))
set.seed(1111)
train_ind <- sample(nrow(right_matrix), size = sample_size)
train <- right_matrix[train_ind, ]
test <- right_matrix[-train_ind, ]
# Peform topic modeling
lda_model <- LDA(___, k = ___, method = ___,
control = list(seed = 1111))
# Train
___(lda_model, newdata = ___)
# Test
___(lda_model, newdata = ___)