Perplexity testen
Du hast einen Datensatz mit Tweets erhalten, die während der US-Wahl 2016 von Tweet-Bots gesendet wurden. Deine Chefin/dein Chef hat zwei relevante Kontotypen identifiziert: Left und Right. Du sollst Topic Modeling auf den Tweets der Right-Bots durchführen. Außerdem soll der Inhalt dieser Tweets mithilfe von Topic Modeling zusammengefasst werden. Führe Topic Modeling mit 5, 15 und 50 Themen durch, um ein allgemeines Gefühl dafür zu bekommen, wie viele Themen im Datensatz enthalten sind.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
library(topicmodels)
# Setup train and test data
sample_size <- floor(0.90 * nrow(right_matrix))
set.seed(1111)
train_ind <- sample(nrow(right_matrix), size = sample_size)
train <- right_matrix[train_ind, ]
test <- right_matrix[-train_ind, ]
# Peform topic modeling
lda_model <- LDA(___, k = ___, method = ___,
control = list(seed = 1111))
# Train
___(lda_model, newdata = ___)
# Test
___(lda_model, newdata = ___)