1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

用語-文書行列を作成する

ここまでで、これまで学んだ概念に基づく楽しい可視化や分析に進む前の、あまりワクワクしない基礎作業もほぼ完了です!

この演習では、これまでと似た処理を行いますが、文書-用語行列の「転置」をとります。今回の用語-文書行列(TDM)では、最初の列に用語があり、上部に文書が個々の列名として並びます。

TDM は言語分析でよく使われる行列です。著者や文書の数より用語の数が多いことが多く、一般に列より行が多いほうが扱いやすいからです。分析を始める簡単な方法は、TDM に対して as.matrix() を使って、単純な行列に変換することです。

指示

100 XP
  • clean_corp に TermDocumentMatrix() を適用して coffee_tdm を作成します。
  • coffee_tdm を as.matrix() で行列に変換して coffee_m を作成します。
  • coffee_m の次元をコンソールに表示します。行数と列数を確認しましょう。
  • coffee_m から、用語(行)が "star" と "starbucks"、文書(列)が 25 から 35 の部分集合を表示します。