1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

デンドログラムに適したTDMを作る

デンドログラム作成の手順が分かったところで、これをテキストに適用していきます。ですがその前に、tm の removeSparseTerms() を使って TDM の語数を絞り込みます。なぜ TDM/DTM のスパース性を調整する必要があるのでしょうか?

TDM や DTM はスパース(ほとんどが 0)です。1000 件のツイートが 3000 語以上の TDM になることもあります! テキスト量が多いほど、あまりにごちゃついたデンドログラムは解釈が難しくなります。

多くの実務では、良いデンドログラムは 25~70 語の TDM を基にします。70 語を超えると可視化が混雑して理解しづらくなります。逆に 25 語未満だと、関連性のある洞察的なクラスタが描けない可能性があります。

removeSparseTerms() を使うと、sparse 引数で TDM に残す総語数を調整できます。sparse が 1 に近いほど、より多くの語が残ります。この値は、TDM 内の各語について、ゼロの割合に基づくカットオフ(しきい値)を表します。

指示

100 XP

tweets_tdm は chardonnay に関するツイートから作成されています。

  • tweets_tdm の次元をコンソールに表示してください。
  • tweets_tdm に対して sparse = 0.95 を指定し、removeSparseTerms() で tdm1 を作成してください。
  • tweets_tdm に対して sparse = 0.975 を指定し、removeSparseTerms() で tdm2 を作成してください。
  • 何語残ったか確認するため、tdm1 をコンソールに出力してください。
  • 何語残ったか確認するため、tdm2 をコンソールに出力してください。