1. Learn
  2. /
  3. Courses
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

Exercise

総仕上げ:テキストベースのデンドログラム

ここまで学んだスキルを使って、最初のテキストベースのデンドログラムを作成しましょう。デンドログラムは、情報を要約してデータの構造を把握しやすくするためのものです。これは、平均値が母集団について何かを教えてはくれますが、すべてを伝えるわけではない、というのと似ています。どちらも解釈を誤る可能性があります。テキストでは、意味のないクラスタが多く出る一方で、有用なクラスタが現れることもあります。

TDM や DTM オブジェクトの特性として、dist() 関数で使う前に(as.matrix() で)行列に変換する必要があります。

chardonnay に関するツイートでは、ソウル音楽のレジェンドである Marvin Gaye がワードクラウドに現れたのは意外だったかもしれません。デンドログラムでも同じ傾向が見られるか確認してみましょう。

Instructions

100 XP
  • tweets_tdm に removeSparseTerms() を適用して tweets_tdm2 を作成します。sparse = 0.975 を指定します。
  • tweets_tdm2 に as.matrix() を使って行列に変換し、tdm_m を作成します。
  • dist() 関数を使って tdm_m の距離を計算し、tweets_dist を作成します。
  • tweets_dist に hclust() を適用して、hc という階層的クラスタオブジェクトを作成します。
  • plot() に hc を渡してデンドログラムを作成します。