1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

語幹化と語幹補完の入門

もう一つ有用な前処理として、word-stemming(語幹化)と stem completion(語幹補完)があります。語幹化は、文書間で表記ゆれを統一するために語を根に還元します。たとえば "computational"、"computers"、"computation" の語幹は "comput" です。ただし "comput" は実在の単語ではないため、"computational"、"computers"、"computation" がいずれも認識しやすい単語(例: "computer")を指すように再構成したくなります。この再構成の工程を語幹補完と呼びます。

tm パッケージは語の根を得るための stemDocument() 関数を提供します。この関数は、文字ベクトルを受け取って文字ベクトルを返すか、PlainTextDocument を受け取って PlainTextDocument を返します。

例えば、

stemDocument(c("computational", "computers", "computation"))

は "comput" "comput" "comput" を返します。

これらの語幹を既知の語に再構成するために stemCompletion() を使用します。stemCompletion() は文字ベクトルと補完辞書を受け取ります。補完辞書は文字ベクトルでも Corpus オブジェクトでもかまいません。いずれにせよ、この例の補完辞書には "computer" を含める必要があり、そうすることで "comput" のすべての出現を再構成できます。

指示

100 XP
  • 順に "complicated"、"complication"、"complicatedly" を含むベクトル complicate を作成します。
  • complicate を語幹化し、その結果を stem_doc というオブジェクトに保存します。
  • 1語 "complicate" を含む comp_dict を作成します。
  • stemCompletion() を stem_doc に適用し、参照コーパスとして comp_dict を用いて語を再補完し、complete_text を作成します。
  • complete_text をコンソールに出力してください。