Crea una matriz documento-término

¡Esperemos que no estés demasiado cansado después de todo este trabajo básico de text mining! Por si acaso, volvamos al café y pidamos algo en Starbucks mientras construimos una matriz documento-término a partir de tuits sobre café.

Partiendo del archivo coffee.csv, hemos aplicado transformaciones comunes para obtener un corpus limpio llamado clean_corp.

La matriz documento-término se usa cuando quieres que cada documento esté representado como una fila. Esto puede ser útil si comparas autores por filas o si los datos están ordenados cronológicamente y quieres conservar la serie temporal. El paquete tm usa una clase de "simple triplet matrix". Sin embargo, a menudo es más fácil manipular y examinar el objeto reclasificando la DTM con as.matrix().

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

Crea coffee_dtm aplicando DocumentTermMatrix() a clean_corp.
Crea coffee_m, una versión en matriz de coffee_dtm, usando as.matrix().
Imprime en la consola las dimensiones de coffee_m con la función dim(). Observa el número de filas y columnas.
Imprime el subconjunto de coffee_m que contiene los documentos (filas) del 25 al 35 y los términos (columnas) "star" y "starbucks".

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create the document-term matrix from the corpus
coffee_dtm <- ___

# Print out coffee_dtm data
coffee_dtm

# Convert coffee_dtm to a matrix
coffee_m <- ___

# Print the dimensions of coffee_m
___

# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]

Editar y ejecutar código