CommencerCommencer gratuitement

Introduction à la racinisation des mots et à la complétion des racines

Un autre prétraitement utile consiste à appliquer la racinisation des mots et la complétion des racines. La racinisation réduit les mots à leur racine afin d'unifier les formes à travers les documents. Par exemple, la racine de « computational », « computers » et « computation » est « comput ». Mais comme « comput » n’est pas un vrai mot, nous voulons reconstruire des mots pour que « computational », « computers » et « computation » renvoient tous à un terme reconnaissable, comme « computer ». Cette étape de reconstruction s’appelle la complétion des racines.

Le package tm fournit la fonction stemDocument() pour obtenir la racine d’un mot. Cette fonction prend soit un vecteur de caractères et renvoie un vecteur de caractères, soit un PlainTextDocument et renvoie un PlainTextDocument.

Par exemple,

stemDocument(c("computational", "computers", "computation"))

renvoie "comput" "comput" "comput".

Vous utiliserez stemCompletion() pour reconstruire ces racines en un terme connu. stemCompletion() accepte un vecteur de caractères et un dictionnaire de complétion. Le dictionnaire de complétion peut être un vecteur de caractères ou un objet Corpus. Dans tous les cas, le dictionnaire de complétion pour notre exemple doit contenir le mot « computer », afin que toutes les occurrences de « comput » puissent être reconstruites.

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

  • Créez un vecteur appelé complicate composé, dans cet ordre, des mots « complicated », « complication » et « complicatedly ».
  • Stockez la version racinisée de complicate dans un objet appelé stem_doc.
  • Créez comp_dict qui contient un seul mot, « complicate ».
  • Créez complete_text en appliquant stemCompletion() à stem_doc. Reconstituez les mots en utilisant comp_dict comme corpus de référence.
  • Affichez complete_text dans la console.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create complicate
complicate <- ___

# Perform word stemming: stem_doc
stem_doc <- ___

# Create the completion dictionary: comp_dict
comp_dict <- ___

# Perform stem completion: complete_text 
complete_text <- ___

# Print complete_text
complete_text
Modifier et exécuter le code