Introduction à la racinisation des mots et à la complétion des racines
Un autre prétraitement utile consiste à appliquer la racinisation des mots et la complétion des racines. La racinisation réduit les mots à leur racine afin d'unifier les formes à travers les documents. Par exemple, la racine de « computational », « computers » et « computation » est « comput ». Mais comme « comput » n’est pas un vrai mot, nous voulons reconstruire des mots pour que « computational », « computers » et « computation » renvoient tous à un terme reconnaissable, comme « computer ». Cette étape de reconstruction s’appelle la complétion des racines.
Le package tm fournit la fonction stemDocument() pour obtenir la racine d’un mot. Cette fonction prend soit un vecteur de caractères et renvoie un vecteur de caractères, soit un PlainTextDocument et renvoie un PlainTextDocument.
Par exemple,
stemDocument(c("computational", "computers", "computation"))
renvoie "comput" "comput" "comput".
Vous utiliserez stemCompletion() pour reconstruire ces racines en un terme connu. stemCompletion() accepte un vecteur de caractères et un dictionnaire de complétion. Le dictionnaire de complétion peut être un vecteur de caractères ou un objet Corpus. Dans tous les cas, le dictionnaire de complétion pour notre exemple doit contenir le mot « computer », afin que toutes les occurrences de « comput » puissent être reconstruites.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
- Créez un vecteur appelé
complicatecomposé, dans cet ordre, des mots « complicated », « complication » et « complicatedly ». - Stockez la version racinisée de
complicatedans un objet appeléstem_doc. - Créez
comp_dictqui contient un seul mot, « complicate ». - Créez
complete_texten appliquantstemCompletion()àstem_doc. Reconstituez les mots en utilisantcomp_dictcomme corpus de référence. - Affichez
complete_textdans la console.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create complicate
complicate <- ___
# Perform word stemming: stem_doc
stem_doc <- ___
# Create the completion dictionary: comp_dict
comp_dict <- ___
# Perform stem completion: complete_text
complete_text <- ___
# Print complete_text
complete_text