Revisar resultados de LDA
Has desarrollado un modelo de temas, napoleon_model, con 5 temas para las frases del libro Rebelión en la granja que hacen referencia al personaje principal, Napoleón. Has pedido a 5 autores locales que revisen las palabras y frases principales de cada tema y te han propuesto un tema general para cada uno.
Para finalizar tus resultados, prepara algunas estadísticas resumidas sobre los temas. Presentarás estos valores de resumen junto con los temas a tu jefe para su revisión.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Instrucciones del ejercicio
- Extrae la matriz gamma del modelo de temas,
napoleon_model. - Usa funciones de
dplyrpara crear un tibble con el tema principal de cada frase llamadogrouped_gammas. - Usa
grouped_gammaspara contar cuántas frases se parecen más a cada tema. - Usa
grouped_gammasy calcula el valor medio de gamma para cada tema.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Extract the gamma matrix
gamma_values <- tidy(___, matrix = ___)
# Create grouped gamma tibble
grouped_gammas <- gamma_values %>%
___(document) %>%
___(desc(gamma)) %>%
___(1) %>%
___(topic)
# Count (tally) by topic
grouped_gammas %>%
___(topic, sort=TRUE)
# Average topic weight for top topic for each sentence
grouped_gammas %>%
___(avg=mean(gamma)) %>%
___(desc(avg))