語幹化と語幹補完の入門

もう一つ有用な前処理として、word-stemming（語幹化）と stem completion（語幹補完）があります。語幹化は、文書間で表記ゆれを統一するために語を根に還元します。たとえば "computational"、"computers"、"computation" の語幹は "comput" です。ただし "comput" は実在の単語ではないため、"computational"、"computers"、"computation" がいずれも認識しやすい単語（例: "computer"）を指すように再構成したくなります。この再構成の工程を語幹補完と呼びます。

tm パッケージは語の根を得るための stemDocument() 関数を提供します。この関数は、文字ベクトルを受け取って文字ベクトルを返すか、PlainTextDocument を受け取って PlainTextDocument を返します。

例えば、

stemDocument(c("computational", "computers", "computation"))

は "comput" "comput" "comput" を返します。

これらの語幹を既知の語に再構成するために stemCompletion() を使用します。stemCompletion() は文字ベクトルと補完辞書を受け取ります。補完辞書は文字ベクトルでも Corpus オブジェクトでもかまいません。いずれにせよ、この例の補完辞書には "computer" を含める必要があり、そうすることで "comput" のすべての出現を再構成できます。

順に "complicated"、"complication"、"complicatedly" を含むベクトル complicate を作成します。
complicate を語幹化し、その結果を stem_doc というオブジェクトに保存します。
1語 "complicate" を含む comp_dict を作成します。
stemCompletion() を stem_doc に適用し、参照コーパスとして comp_dict を用いて語を再補完し、complete_text を作成します。
complete_text をコンソールに出力してください。

演習

語幹化と語幹補完の入門

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習