1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

共通でない単語を可視化する

共通していない単語を可視化したいとします。そのためには comparison.cloud() も使えます。手順はほぼ同じですが、1 つ大きな違いがあります。

共通する単語を探したときと同様に、まずツイートを別々のコーパスにまとめ、それらを VCorpus() オブジェクトに結合します。次に clean_corpus() 関数を適用し、TermDocumentMatrix に整理します。

coffee と chardonnay のどちらに属する単語かを区別できるように、TDM の列名は次のように設定できます。

colnames(all_tdm) <- c("chardonnay", "coffee")

最後に、comparison.cloud() で使えるように、as.matrix() を使ってオブジェクトを行列に変換します。comparison.cloud() に渡す各コーパスごとに色を指定できます(例: colors = c("red", "yellow", "green"))。セクションを見分けやすくするためです。

指示

100 XP

all_corpus はワークスペースにプリロードされています。

  • 事前定義された clean_corpus 関数を all_corpus に適用して、all_clean を作成します。
  • all_clean から TermDocumentMatrix の all_tdm を作成します。
  • colnames() を使って、all_tdm 内の各コーパスの列名を変更します。1 列目を "coffee"、2 列目を "chardonnay" にしてください。
  • all_tdm を行列形式に変換して all_m を作成します。
  • all_m を使って comparison.cloud() を作成し、colors = c("orange", "blue") と max.words = 50 を指定します。