ComenzarEmpieza gratis

Crea una matriz término-documento

¡Ya casi has terminado con el trabajo de base (no tan emocionante) antes de pasar a visualizaciones y análisis más entretenidos con los conceptos que has aprendido!

En este ejercicio, harás un proceso similar, pero tomando la traspuesta de la matriz documento-término. En este caso, la matriz término-documento tiene los términos en la primera columna y los documentos en la parte superior como nombres de columnas individuales.

La TDM suele ser la matriz que se usa para el análisis del lenguaje. Esto se debe a que probablemente tengas más términos que autores o documentos, y en general la vida es más sencilla cuando hay más filas que columnas. Una forma fácil de empezar a analizar la información es convertirla en una matriz simple usando as.matrix() sobre la TDM.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

  • Crea coffee_tdm aplicando TermDocumentMatrix() a clean_corp.
  • Crea coffee_m convirtiendo coffee_tdm en una matriz con as.matrix().
  • Imprime en la consola las dimensiones de coffee_m. Fíjate en el número de filas y columnas.
  • Imprime el subconjunto de coffee_m que contiene los términos (filas) "star" y "starbucks" y los documentos (columnas) del 25 al 35.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create a term-document matrix from the corpus
coffee_tdm <- ___

# Print coffee_tdm data
coffee_tdm

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Print the dimensions of the matrix
___

# Review a portion of the matrix
___[___, ___]
Editar y ejecutar código