Asignar temas a documentos
Crear modelos LDA no sirve de mucho si no puedes interpretar y usar los resultados. Tienes los resultados de ejecutar un modelo LDA, sentence_lda, sobre un conjunto de oraciones, pig_sentences. Necesitas explorar tanto la matriz beta, palabras más importantes por tema, como la matriz gamma, temas más importantes por documento, para comprender bien los resultados de cualquier análisis LDA.
Con lo que sabes sobre estas dos matrices, extrae los resultados para un tema concreto y comprueba si la salida coincide con lo que esperas.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Instrucciones del ejercicio
- Crea un tibble para las matrices
betaygamma. - Explora el tema 5 consultando las palabras más importantes del tema 5 y ordenando los resultados por valores de
betaen orden descendente. - Explora el tema 5 viendo qué oraciones se alinean más con el tema 5 y ordenando los resultados por valores de
gammaen orden descendente.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Extract the beta and gamma matrices
sentence_betas <- tidy(sentence_lda, ___ = "___")
sentence_gammas <- tidy(sentence_lda, ___ = "___")
# Explore Topic 5 Betas
___ %>%
___(topic == ___) %>%
arrange(-___)
# Explore Topic 5 Gammas
___ %>%
___(topic == ___) %>%
arrange(-___)