Termes fréquents avec tm
Maintenant que vous savez créer une matrice termes-documents, ainsi que sa transposée, la matrice documents-termes, nous allons l’utiliser comme base pour quelques analyses. Pour l’analyser, nous devons la convertir en simple matrice, comme dans le chapitre 1 avec as.matrix().
Appeler rowSums() sur votre nouvelle matrice agrège tous les termes utilisés dans un passage. Une fois que vous avez les rowSums(), vous pouvez les sort() avec decreasing = TRUE pour vous concentrer sur les termes les plus fréquents.
Enfin, vous pouvez réaliser un barplot() des 5 premiers termes de term_frequency avec le code suivant.
barplot(term_frequency[1:5], col = "#C0DE25")
Bien sûr, vous pouvez suivre nos cours sur ggplot2 pour apprendre à personnaliser le graphique encore davantage… :)
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Créez
coffee_mcomme matrice à partir de la matrice termes-documentscoffee_tdmdu chapitre précédent. - Créez
term_frequencyen utilisant la fonctionrowSums()surcoffee_m. - Triez
term_frequencypar ordre décroissant et stockez le résultat dansterm_frequency. - Utilisez l’indexation avec crochets simples, c’est-à-dire un seul
[, pour afficher les 10 premiers termes determ_frequency. - Réalisez un diagramme en barres des 10 termes les plus fréquents.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
## coffee_tdm is still loaded in your workspace
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Calculate the row sums of coffee_m
term_frequency <- ___
# Sort term_frequency in decreasing order
term_frequency <- ___
# View the top 10 most common words
___
# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)