Termos frequentes com tm
Agora que você sabe como criar uma matriz termo-documento e, também, sua transposta (matriz documento-termo), vamos usá-la como base para algumas análises. Para analisar, precisamos convertê-la em uma matriz simples, como fizemos no capítulo 1 usando as.matrix().
Chamar rowSums() na nova matriz agrega todas as ocorrências dos termos em um texto. Depois de obter os rowSums(), você pode aplicar sort() com decreasing = TRUE para focar nos termos mais comuns.
Por fim, você pode criar um barplot() dos 5 principais termos de term_frequency com o código a seguir.
barplot(term_frequency[1:5], col = "#C0DE25")
Claro, você pode fazer nossos cursos de ggplot2 para aprender a personalizar o gráfico ainda mais… :)
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Crie
coffee_mcomo uma matriz usando a matriz termo-documentocoffee_tdmdo último capítulo. - Crie
term_frequencyusando a funçãorowSums()emcoffee_m. - Ordene
term_frequencyem ordem decrescente e armazene o resultado emterm_frequency. - Use fatiamento com colchete único, isto é, usando apenas um
[, para imprimir os 10 principais termos determ_frequency. - Faça um gráfico de barras dos 10 principais termos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
## coffee_tdm is still loaded in your workspace
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Calculate the row sums of coffee_m
term_frequency <- ___
# Sort term_frequency in decreasing order
term_frequency <- ___
# View the top 10 most common words
___
# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)