Términos frecuentes con tm
Ahora que sabes cómo hacer una matriz término-documento y, también, su traspuesta, la matriz documento-término, la usaremos como base para algunos análisis. Para poder analizarla, necesitamos convertirla en una matriz simple, como hicimos en el capítulo 1 usando as.matrix().
Al llamar a rowSums() sobre tu nueva matriz, agregas todos los términos usados en un texto. Una vez tengas los rowSums(), puedes sort() con decreasing = TRUE para centrarte en los términos más comunes.
Por último, puedes crear un barplot() de los 5 términos principales de term_frequency con el siguiente código.
barplot(term_frequency[1:5], col = "#C0DE25")
Por supuesto, puedes hacer nuestros cursos de ggplot2 para aprender a personalizar el gráfico aún más… :)
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
- Crea
coffee_mcomo una matriz usando la matriz término-documentocoffee_tdmdel capítulo anterior. - Crea
term_frequencyusando la funciónrowSums()sobrecoffee_m. - Ordena
term_frequencyen orden descendente y guarda el resultado enterm_frequency. - Usa indexación con un único corchete, es decir, solo un
[, para imprimir los 10 términos principales determ_frequency. - Crea un diagrama de barras de los 10 términos principales.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
## coffee_tdm is still loaded in your workspace
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Calculate the row sums of coffee_m
term_frequency <- ___
# Sort term_frequency in decreasing order
term_frequency <- ___
# View the top 10 most common words
___
# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)