Fonctions de nettoyage courantes de tm

Maintenant que vous connaissez deux façons de créer un corpus, vous pouvez vous concentrer sur le nettoyage (ou prétraitement) du texte. Vous allez d’abord nettoyer un petit extrait de texte, puis passer à des corpus plus volumineux.

Dans l’approche « bag of words », le nettoyage aide à regrouper les termes. Par exemple, il peut être pertinent de considérer que « miner », « mining » et « mine » correspondent à un seul terme. Les étapes de prétraitement dépendent du projet. Les mots utilisés dans des tweets sont très différents de ceux de documents juridiques ; le processus de nettoyage peut donc l’être aussi.

Parmi les fonctions de prétraitement courantes :

tolower(): Mettre tous les caractères en minuscules
removePunctuation(): Supprimer toute la ponctuation
removeNumbers(): Supprimer les nombres
stripWhitespace(): Supprimer les espaces superflus

tolower() fait partie de R de base, tandis que les trois autres fonctions proviennent du package tm. Par la suite, nous chargerons tm et qdap pour vous lorsqu’ils seront nécessaires. À chaque nouveau package présenté, nous vous demanderons de le charger la première fois.

La variable text, qui contient une phrase, est affichée dans le script.

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

Appliquez chacune des fonctions suivantes à text et affichez simplement les résultats dans la console :

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create the object: text
text <- "She woke up at       6 A.M. It\'s so early!  She was only 10% awake and began drinking coffee in front of her computer."

# Make lowercase
___

# Remove punctuation
____

# Remove numbers
___

# Remove whitespace
___

Modifier et exécuter le code