Verifica della perplexity
Ti è stato fornito un insieme di dati pieno di tweet inviati da tweet bot durante le elezioni USA del 2016. Il tuo responsabile ha individuato due diversi tipi di account di interesse, Left e Right. Ti ha chiesto di eseguire il topic modeling sui tweet dei tweet bot Right. Inoltre, spera di riassumere il contenuto di questi tweet con il topic modeling. Esegui il topic modeling con 5, 15 e 50 topic per farti un’idea generale di quanti topic sono presenti nei dati.
Questo esercizio fa parte del corso
Introduzione all'Elaborazione del Linguaggio Naturale in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
library(topicmodels)
# Setup train and test data
sample_size <- floor(0.90 * nrow(right_matrix))
set.seed(1111)
train_ind <- sample(nrow(right_matrix), size = sample_size)
train <- right_matrix[train_ind, ]
test <- right_matrix[-train_ind, ]
# Peform topic modeling
lda_model <- LDA(___, k = ___, method = ___,
control = list(seed = 1111))
# Train
___(lda_model, newdata = ___)
# Test
___(lda_model, newdata = ___)