Mots vides et nuages de mots
Maintenant que vous êtes dans l’état d’esprit du text mining, confortablement installé avec un verre de chardonnay, allons plus loin. Dans le dernier nuage de mots, « chardonnay » dominait la visualisation. Il était tellement présent que vous ne pouviez plus faire ressortir d’autres informations intéressantes.
Modifions la liste des mots vides pour y inclure « chardonnay » afin de voir quels autres mots sont fréquents, mais étaient initialement noyés.
Votre espace de travail contient une version nettoyée des tweets sur le chardonnay ; nous allons maintenant retirer quelques termes peu informatifs. Cet exercice utilise content() pour vous montrer un tweet précis à des fins de comparaison. Pensez à utiliser des doubles crochets pour indexer la liste du corpus.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Appliquez
content()au 24e document dechardonnay_corp. - Ajoutez
"chardonnay"aux stopwords anglais et assignez le résultat àstops. - Examinez les six derniers mots de
stops. - Créez
cleaned_chardonnay_corpavectm_map()en passantchardonnay_corp, la fonctionremoveWords()puis les stopwordsstops. - Examinez à nouveau le
contentdu tweet24pour comparer les résultats.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Review a "cleaned" tweet
___(___)
# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')
# Review last 6 stopwords
tail(stops)
# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)
# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])