1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

両極化タグクラウド

共通タグクラウドは、ドキュメント間で共有されている単語を表示します。ただし、どの単語が一方のドキュメントで他方よりも頻繁に現れるかは示せません。これを可視化するにはピラミッドプロットが必要で、plotrixパッケージのpyramid.plot()で作成できます。

まず、データを適切な形式に整形する必要があります。最も簡単なのは、データフレームに変換してdplyrを使う方法です。as.matrix(tdm)で作成した単語カウントの行列があるとき、最終的には3列のデータフレームにする必要があります。

  • 各ドキュメントに含まれる単語
  • ドキュメント1でのその単語の出現数
  • ドキュメント2でのその単語の出現数

その後、次のようにpyramid.plot()を使います。

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

描画の見た目を整えるための追加の引数もいくつかあります。

それでは、chardonnayのツイートではよく使われ、coffeeのツイートではまれな単語を探索してみましょう。all_dtm_mは用意されています。

指示1 / 2

undefined XP
    1
    2
  • all_tdm_mをtibbleに変換します。行名は"word"という列に設定します。
  • すべての変数について、~. > 0の構文でゼロより大きいものだけにフィルタします。
  • differenceという列を追加し、chardonnay列のカウントからcoffee列のカウントを引いた値にします。
  • slice_maxでdifferenceを指定し、上位n = 25を取得します。
  • 行をdifferenceの降順になるようにdesc()で並べ替えます。