Asignar temas a documentos

Crear modelos LDA no sirve de mucho si no puedes interpretar y usar los resultados. Tienes los resultados de ejecutar un modelo LDA, sentence_lda, sobre un conjunto de oraciones, pig_sentences. Necesitas explorar tanto la matriz beta, palabras más importantes por tema, como la matriz gamma, temas más importantes por documento, para comprender bien los resultados de cualquier análisis LDA.

Con lo que sabes sobre estas dos matrices, extrae los resultados para un tema concreto y comprueba si la salida coincide con lo que esperas.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Ver curso

Instrucciones del ejercicio

Crea un tibble para las matrices beta y gamma.
Explora el tema 5 consultando las palabras más importantes del tema 5 y ordenando los resultados por valores de beta en orden descendente.
Explora el tema 5 viendo qué oraciones se alinean más con el tema 5 y ordenando los resultados por valores de gamma en orden descendente.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Extract the beta and gamma matrices
sentence_betas <- tidy(sentence_lda, ___ = "___")
sentence_gammas <- tidy(sentence_lda, ___ = "___")

# Explore Topic 5 Betas
___ %>%
  ___(topic == ___) %>%
  arrange(-___)

# Explore Topic 5 Gammas
___ %>%
  ___(topic == ___) %>%
  arrange(-___)

Editar y ejecutar código

Introducción al procesamiento del lenguaje natural en R

IntermedioNivel de habilidad

4.8+

40 reviews

En el capítulo 4 cubrimos dos pilares del procesamiento del lenguaje natural: el análisis de sentimiento y las incrustaciones de palabras. Son dos técnicas imprescindibles para quien aprende los fundamentos del análisis de texto. Además, verás brevemente BERT, el etiquetado gramatical (part-of-speech) y el reconocimiento de entidades con nombre. En este curso se han cubierto casi 15 técnicas de análisis diferentes, así que el capítulo 4 termina recapitulando todas las excelentes técnicas que conocerás en este curso.

Exercise 1: Análisis de sentimiento Exercise 2: léxicos de tidytext Exercise 3: Puntajes de sentimiento Exercise 4: Sentimiento y emoción Exercise 5: Word embeddings Exercise 6: Práctica con h2o Exercise 7: word2vec Exercise 8: Análisis adicional de NLP Exercise 9: Repaso de métodos #1 Exercise 10: Repaso de métodos #2 Exercise 11: Conclusión