ComenzarEmpieza gratis

Términos frecuentes con tm

Ahora que sabes cómo hacer una matriz término-documento y, también, su traspuesta, la matriz documento-término, la usaremos como base para algunos análisis. Para poder analizarla, necesitamos convertirla en una matriz simple, como hicimos en el capítulo 1 usando as.matrix().

Al llamar a rowSums() sobre tu nueva matriz, agregas todos los términos usados en un texto. Una vez tengas los rowSums(), puedes sort() con decreasing = TRUE para centrarte en los términos más comunes.

Por último, puedes crear un barplot() de los 5 términos principales de term_frequency con el siguiente código.

barplot(term_frequency[1:5], col = "#C0DE25")

Por supuesto, puedes hacer nuestros cursos de ggplot2 para aprender a personalizar el gráfico aún más… :)

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

  • Crea coffee_m como una matriz usando la matriz término-documento coffee_tdm del capítulo anterior.
  • Crea term_frequency usando la función rowSums() sobre coffee_m.
  • Ordena term_frequency en orden descendente y guarda el resultado en term_frequency.
  • Usa indexación con un único corchete, es decir, solo un [, para imprimir los 10 términos principales de term_frequency.
  • Crea un diagrama de barras de los 10 términos principales.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

## coffee_tdm is still loaded in your workspace

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Calculate the row sums of coffee_m
term_frequency <- ___

# Sort term_frequency in decreasing order
term_frequency <- ___

# View the top 10 most common words
___

# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)
Editar y ejecutar código