Verifica della perplexity
Ti è stato fornito un insieme di dati pieno di tweet inviati da tweet bot durante le elezioni USA del 2016. Il tuo responsabile ha individuato due diversi tipi di account di interesse, Left e Right. Ti ha chiesto di eseguire il topic modeling sui tweet dei tweet bot Right. Inoltre, spera di riassumere il contenuto di questi tweet con il topic modeling. Esegui il topic modeling con 5, 15 e 50 topic per farti un’idea generale di quanti topic sono presenti nei dati.
Questo esercizio fa parte del corso
Introduzione all'Elaborazione del Linguaggio Naturale in R
esercizio interattivo pratico
Prova questo esercizio completando questo codice di esempio.
library(topicmodels)
# Setup train and test data
sample_size <- floor(0.90 * nrow(right_matrix))
set.seed(1111)
train_ind <- sample(nrow(right_matrix), size = sample_size)
train <- right_matrix[train_ind, ]
test <- right_matrix[-train_ind, ]
# Peform topic modeling
lda_model <- LDA(___, k = ___, method = ___,
control = list(seed = 1111))
# Train
___(lda_model, newdata = ___)
# Test
___(lda_model, newdata = ___)