Mots vides et nuages de mots

Maintenant que vous êtes dans l’état d’esprit du text mining, confortablement installé avec un verre de chardonnay, allons plus loin. Dans le dernier nuage de mots, « chardonnay » dominait la visualisation. Il était tellement présent que vous ne pouviez plus faire ressortir d’autres informations intéressantes.

Modifions la liste des mots vides pour y inclure « chardonnay » afin de voir quels autres mots sont fréquents, mais étaient initialement noyés.

Votre espace de travail contient une version nettoyée des tweets sur le chardonnay ; nous allons maintenant retirer quelques termes peu informatifs. Cet exercice utilise content() pour vous montrer un tweet précis à des fins de comparaison. Pensez à utiliser des doubles crochets pour indexer la liste du corpus.

Cet exercice fait partie du cours

<cours>Text mining avec sac de mots en R</cours>

Voir le cours

Instructions de l’exercice

Appliquez content() au 24e document de chardonnay_corp.
Ajoutez "chardonnay" aux stopwords anglais et assignez le résultat à stops.
Examinez les six derniers mots de stops.
Créez cleaned_chardonnay_corp avec tm_map() en passant chardonnay_corp, la fonction removeWords() puis les stopwords stops.
Examinez à nouveau le content du tweet 24 pour comparer les résultats.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Review a "cleaned" tweet
___(___)

# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')

# Review last 6 stopwords 
tail(stops)

# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)

# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])

Modifier et exécuter le code