Crea una matriz documento-término
¡Esperemos que no estés demasiado cansado después de todo este trabajo básico de text mining! Por si acaso, volvamos al café y pidamos algo en Starbucks mientras construimos una matriz documento-término a partir de tuits sobre café.
Partiendo del archivo coffee.csv, hemos aplicado transformaciones comunes para obtener un corpus limpio llamado clean_corp.
La matriz documento-término se usa cuando quieres que cada documento esté representado como una fila. Esto puede ser útil si comparas autores por filas o si los datos están ordenados cronológicamente y quieres conservar la serie temporal. El paquete tm usa una clase de "simple triplet matrix". Sin embargo, a menudo es más fácil manipular y examinar el objeto reclasificando la DTM con as.matrix().
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
- Crea
coffee_dtmaplicandoDocumentTermMatrix()aclean_corp. - Crea
coffee_m, una versión en matriz decoffee_dtm, usandoas.matrix(). - Imprime en la consola las dimensiones de
coffee_mcon la funcióndim(). Observa el número de filas y columnas. - Imprime el subconjunto de
coffee_mque contiene los documentos (filas) del 25 al 35 y los términos (columnas)"star"y"starbucks".
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create the document-term matrix from the corpus
coffee_dtm <- ___
# Print out coffee_dtm data
coffee_dtm
# Convert coffee_dtm to a matrix
coffee_m <- ___
# Print the dimensions of coffee_m
___
# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]