1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

ストップワードとワードクラウド

テキストマイニングの発想に切り替えて、シャルドネ片手に腰を落ち着けたところで、もう少し深掘りしていきます。直前のワードクラウドでは、"chardonnay" が可視化を支配していました。強すぎて、ほかの興味深い示唆が読み取れませんでした。

そこで、ストップワードに "chardonnay" を追加して、他にどんな単語がよく使われているのか、もともと埋もれていた語を見てみましょう。

ワークスペースにはクリーン済みのシャルドネ関連ツイートがありますが、ここでは意味の薄い語をさらに取り除きます。この演習では、比較用に特定のツイートを表示するために content() を使います。コーパスのリストをインデックスするときは、二重角かっこを使うのを忘れないでください。

指示

100 XP
  • chardonnay_corp の24番目のドキュメントに content() を適用します。
  • 英語のストップワードに "chardonnay" を追加し、stops に代入します。
  • stops の末尾6語を確認します。
  • tm_map() を使って、chardonnay_corp、関数 removeWords()、そしてストップワード stops をこの順に渡し、cleaned_chardonnay_corp を作成します。
  • 結果を比較するために、もう一度 24 番目のツイートの content を確認します。