Probando la perplejidad
Te han dado un conjunto de datos lleno de tweets enviados por bots durante las elecciones de EE. UU. de 2016. Tu jefa ha identificado dos tipos de cuentas de interés, Left y Right. Te ha pedido que realices modelado de temas sobre los tweets de los bots Right. Además, espera que resumas el contenido de estos tweets con modelado de temas. Ejecuta modelado de temas con 5, 15 y 50 temas para hacerte una idea general de cuántos temas contiene el conjunto de datos.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
library(topicmodels)
# Setup train and test data
sample_size <- floor(0.90 * nrow(right_matrix))
set.seed(1111)
train_ind <- sample(nrow(right_matrix), size = sample_size)
train <- right_matrix[train_ind, ]
test <- right_matrix[-train_ind, ]
# Peform topic modeling
lda_model <- LDA(___, k = ___, method = ___,
control = list(seed = 1111))
# Train
___(lda_model, newdata = ___)
# Test
___(lda_model, newdata = ___)