Práctica de LDA
Te interesan los temas comunes relacionados con el personaje Napoleón en tu nuevo libro favorito, Rebelión en la granja. Napoleón es un cerdo que convence a sus camaradas para derrocar a sus líderes humanos. Con el tiempo, también se convierte en el nuevo líder de la granja.
Has extraído todas las frases que mencionan el nombre de Napoleón, pig_sentences, y has creado una versión tokenizada de esas frases con las stop words eliminadas y el stemming realizado, pig_tokens. Ejecuta LDA sobre estas frases y revisa las palabras más representativas asociadas a algunos de los temas.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Instrucciones del ejercicio
- Ejecuta LDA sobre
pig_matrixidentificando 10 temas. Fija una semilla aleatoria de1111para la reproducibilidad. - Extrae la matriz beta de los resultados.
- Filtra la matriz beta al tema 2 únicamente y ordena los valores de forma descendente por los valores de beta.
- Filtra la matriz beta al tema 3 únicamente y ordena los valores de forma descendente por los valores de beta.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
library(topicmodels)
# Perform Topic Modeling
sentence_lda <-
___(___, k = ___, method = 'Gibbs', control = list(seed = ___))
# Extract the beta matrix
sentence_betas <- ___(sentence_lda, matrix = "___")
# Topic #2
sentence_betas %>%
___(topic == ___) %>%
arrange(-___)
# Topic #3
sentence_betas %>%
___(topic == ___) %>%
arrange(-___)