Un nuage de mots simple

À ce stade, vous avez bu trop de café. En plus, voir les mots les plus fréquents comme « shop », « morning » et « drinking », entre autres, n’est pas très instructif.

Pour fêter le chemin parcouru, essayons un autre lot de 1 000 tweets. Pour l’instant, vous ne savez pas ce qu’ils ont en commun, mais voyons si vous pouvez le deviner grâce à un nuage de mots. Les valeurs de fréquence des termes des tweets sont préchargées dans votre espace de travail.

Un nuage de mots est une visualisation des termes. Dans un nuage de mots, la taille est souvent proportionnelle à la fréquence et, dans certains cas, les couleurs peuvent refléter une autre mesure. Pour l’instant, restons simples : la taille est liée à la fréquence de chaque mot, et nous choisissons une seule couleur.

Comme vous l’avez vu dans la vidéo, la fonction wordcloud() fonctionne ainsi :

wordcloud(words, frequencies, max.words = 500, colors = "blue")

Les analyses de text mining incluent souvent des nuages de mots simples. Ils sont d’ailleurs probablement surutilisés, mais restent utiles pour comprendre rapidement un corpus de texte !

term_frequency est chargé dans votre espace de travail.

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

Chargez le package wordcloud.
Affichez les 10 premières entrées de term_frequency.
Extrayez les termes en appliquant names() à term_frequency. Nommez le vecteur de chaînes terms_vec.
Créez un wordcloud() en utilisant terms_vec pour les mots et term_frequency pour les valeurs. Ajoutez les paramètres max.words = 50 et colors = "red".

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load wordcloud package


# Print the first 10 entries in term_frequency


# Vector of terms


# Create a word cloud for the values in word_freqs

Modifier et exécuter le code