Termes fréquents avec tm

Maintenant que vous savez créer une matrice termes-documents, ainsi que sa transposée, la matrice documents-termes, nous allons l’utiliser comme base pour quelques analyses. Pour l’analyser, nous devons la convertir en simple matrice, comme dans le chapitre 1 avec as.matrix().

Appeler rowSums() sur votre nouvelle matrice agrège tous les termes utilisés dans un passage. Une fois que vous avez les rowSums(), vous pouvez les sort() avec decreasing = TRUE pour vous concentrer sur les termes les plus fréquents.

Enfin, vous pouvez réaliser un barplot() des 5 premiers termes de term_frequency avec le code suivant.

barplot(term_frequency[1:5], col = "#C0DE25")

Bien sûr, vous pouvez suivre nos cours sur ggplot2 pour apprendre à personnaliser le graphique encore davantage… :)

Cet exercice fait partie du cours

<cours>Text mining avec sac de mots en R</cours>

Voir le cours

Instructions de l’exercice

Créez coffee_m comme matrice à partir de la matrice termes-documents coffee_tdm du chapitre précédent.
Créez term_frequency en utilisant la fonction rowSums() sur coffee_m.
Triez term_frequency par ordre décroissant et stockez le résultat dans term_frequency.
Utilisez l’indexation avec crochets simples, c’est-à-dire un seul [, pour afficher les 10 premiers termes de term_frequency.
Réalisez un diagramme en barres des 10 termes les plus fréquents.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

## coffee_tdm is still loaded in your workspace

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Calculate the row sums of coffee_m
term_frequency <- ___

# Sort term_frequency in decreasing order
term_frequency <- ___

# View the top 10 most common words
___

# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)

Modifier et exécuter le code