Crea una matriz término-documento
¡Ya casi has terminado con el trabajo de base (no tan emocionante) antes de pasar a visualizaciones y análisis más entretenidos con los conceptos que has aprendido!
En este ejercicio, harás un proceso similar, pero tomando la traspuesta de la matriz documento-término. En este caso, la matriz término-documento tiene los términos en la primera columna y los documentos en la parte superior como nombres de columnas individuales.
La TDM suele ser la matriz que se usa para el análisis del lenguaje. Esto se debe a que probablemente tengas más términos que autores o documentos, y en general la vida es más sencilla cuando hay más filas que columnas. Una forma fácil de empezar a analizar la información es convertirla en una matriz simple usando as.matrix() sobre la TDM.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
- Crea
coffee_tdmaplicandoTermDocumentMatrix()aclean_corp. - Crea
coffee_mconvirtiendocoffee_tdmen una matriz conas.matrix(). - Imprime en la consola las dimensiones de
coffee_m. Fíjate en el número de filas y columnas. - Imprime el subconjunto de
coffee_mque contiene los términos (filas)"star"y"starbucks"y los documentos (columnas) del 25 al 35.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a term-document matrix from the corpus
coffee_tdm <- ___
# Print coffee_tdm data
coffee_tdm
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Print the dimensions of the matrix
___
# Review a portion of the matrix
___[___, ___]