Un nuage de mots simple
À ce stade, vous avez bu trop de café. En plus, voir les mots les plus fréquents comme « shop », « morning » et « drinking », entre autres, n’est pas très instructif.
Pour fêter le chemin parcouru, essayons un autre lot de 1 000 tweets. Pour l’instant, vous ne savez pas ce qu’ils ont en commun, mais voyons si vous pouvez le deviner grâce à un nuage de mots. Les valeurs de fréquence des termes des tweets sont préchargées dans votre espace de travail.
Un nuage de mots est une visualisation des termes. Dans un nuage de mots, la taille est souvent proportionnelle à la fréquence et, dans certains cas, les couleurs peuvent refléter une autre mesure. Pour l’instant, restons simples : la taille est liée à la fréquence de chaque mot, et nous choisissons une seule couleur.
Comme vous l’avez vu dans la vidéo, la fonction wordcloud() fonctionne ainsi :
wordcloud(words, frequencies, max.words = 500, colors = "blue")
Les analyses de text mining incluent souvent des nuages de mots simples. Ils sont d’ailleurs probablement surutilisés, mais restent utiles pour comprendre rapidement un corpus de texte !
term_frequency est chargé dans votre espace de travail.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Chargez le package
wordcloud. - Affichez les 10 premières entrées de
term_frequency. - Extrayez les termes en appliquant
names()àterm_frequency. Nommez le vecteur de chaînesterms_vec. - Créez un
wordcloud()en utilisantterms_vecpour les mots etterm_frequencypour les valeurs. Ajoutez les paramètresmax.words = 50etcolors = "red".
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load wordcloud package
# Print the first 10 entries in term_frequency
# Vector of terms
# Create a word cloud for the values in word_freqs