Nettoyer avec qdap
Le package qdap propose d’autres fonctions de nettoyage de texte. Chacune est utile à sa manière et devient particulièrement puissante lorsqu’elle est combinée avec les autres.
bracketX(): supprime tout le texte entre parenthèses (par ex. « It's (so) cool » devient « It's cool »)replace_number(): remplace les nombres par leur équivalent en toutes lettres (par ex. « 2 » devient « two »)replace_abbreviation(): remplace les abréviations par leur forme développée (par ex. « Sr » devient « Senior »)replace_contraction(): transforme les contractions en leurs mots de base (par ex. « shouldn't » devient « should not »)replace_symbol(): remplace les symboles courants par leur équivalent en toutes lettres (par ex. « $ » devient « dollar »)
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
Appliquez les fonctions suivantes à l’objet text de l’exercice précédent :
bracketX()replace_number()replace_abbreviation()replace_contraction()replace_symbol()
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
## text is still loaded in your workspace
# Remove text within brackets
___
# Replace numbers with words
___
# Replace abbreviations
___
# Replace contractions
___
# Replace symbols with words
___