Fonctions de nettoyage courantes de tm
Maintenant que vous connaissez deux façons de créer un corpus, vous pouvez vous concentrer sur le nettoyage (ou prétraitement) du texte. Vous allez d’abord nettoyer un petit extrait de texte, puis passer à des corpus plus volumineux.
Dans l’approche « bag of words », le nettoyage aide à regrouper les termes. Par exemple, il peut être pertinent de considérer que « miner », « mining » et « mine » correspondent à un seul terme. Les étapes de prétraitement dépendent du projet. Les mots utilisés dans des tweets sont très différents de ceux de documents juridiques ; le processus de nettoyage peut donc l’être aussi.
Parmi les fonctions de prétraitement courantes :
tolower(): Mettre tous les caractères en minusculesremovePunctuation(): Supprimer toute la ponctuationremoveNumbers(): Supprimer les nombresstripWhitespace(): Supprimer les espaces superflus
tolower() fait partie de R de base, tandis que les trois autres fonctions proviennent du package tm. Par la suite, nous chargerons tm et qdap pour vous lorsqu’ils seront nécessaires. À chaque nouveau package présenté, nous vous demanderons de le charger la première fois.
La variable text, qui contient une phrase, est affichée dans le script.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
Appliquez chacune des fonctions suivantes à text et affichez simplement les résultats dans la console :
- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create the object: text
text <- "She woke up at 6 A.M. It\'s so early! She was only 10% awake and began drinking coffee in front of her computer."
# Make lowercase
___
# Remove punctuation
____
# Remove numbers
___
# Remove whitespace
___