Tout sur les mots vides (stop words)
Il existe souvent des mots fréquents qui apportent peu d’information. On les appelle des mots vides (stop words), et vous pouvez souhaiter les retirer de votre analyse. Parmi les mots vides anglais courants, on trouve « I », « she'll », « the », etc. Dans le package tm, il y a 174 mots vides anglais courants (vous allez les afficher dans cet exercice !)
Lorsque vous menez une analyse, vous devrez probablement compléter cette liste. Dans notre exemple de tweets sur le café, tous les tweets contiennent « coffee », il est donc important de retirer ce mot en plus des mots vides courants. Laisser « coffee » n’apporte aucun éclairage et le surévaluera dans une analyse de fréquence.
L’utilisation de la fonction c() vous permet d’ajouter de nouveaux mots à la liste des mots vides. Par exemple, ce qui suit ajoute « word1 » et « word2 » à la liste par défaut des mots vides anglais :
all_stops <- c("word1", "word2", stopwords("en"))
Une fois que vous avez une liste de mots vides pertinente, vous utiliserez la fonction removeWords() sur votre texte. removeWords() prend deux arguments : l’objet text auquel elle s’applique et la liste des mots à supprimer.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Passez en revue les mots vides standards en appelant
stopwords("en"). - Supprimez les stop words « en » de
text. - Ajoutez « coffee » et « bean » aux mots vides standards, et assignez le tout à
new_stops. - Supprimez les mots vides personnalisés,
new_stops, detext.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
## text is preloaded into your workspace
# List standard English stop words
___
# Print text without standard stop words
removeWords(___, ___("___"))
# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)
# Remove stop words from text
___