ComeçarComece de graça

Termos frequentes com tm

Agora que você sabe como criar uma matriz termo-documento e, também, sua transposta (matriz documento-termo), vamos usá-la como base para algumas análises. Para analisar, precisamos convertê-la em uma matriz simples, como fizemos no capítulo 1 usando as.matrix().

Chamar rowSums() na nova matriz agrega todas as ocorrências dos termos em um texto. Depois de obter os rowSums(), você pode aplicar sort() com decreasing = TRUE para focar nos termos mais comuns.

Por fim, você pode criar um barplot() dos 5 principais termos de term_frequency com o código a seguir.

barplot(term_frequency[1:5], col = "#C0DE25")

Claro, você pode fazer nossos cursos de ggplot2 para aprender a personalizar o gráfico ainda mais… :)

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

  • Crie coffee_m como uma matriz usando a matriz termo-documento coffee_tdm do último capítulo.
  • Crie term_frequency usando a função rowSums() em coffee_m.
  • Ordene term_frequency em ordem decrescente e armazene o resultado em term_frequency.
  • Use fatiamento com colchete único, isto é, usando apenas um [, para imprimir os 10 principais termos de term_frequency.
  • Faça um gráfico de barras dos 10 principais termos.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

## coffee_tdm is still loaded in your workspace

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Calculate the row sums of coffee_m
term_frequency <- ___

# Sort term_frequency in decreasing order
term_frequency <- ___

# View the top 10 most common words
___

# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)
Editar e executar o código