1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

ドキュメント-単語行列を作る

ここまでのテキストマイニングの基礎で疲れていないと良いのですが、念のためコーヒーの話題に戻りましょう。coffee に関するツイートからドキュメント-単語行列を作りながら、Starbucks で一息つきます。

coffee.csv から始めて、一般的な前処理を施し、clean_corp というクリーンなコーパスを用意しました。

ドキュメント-単語行列は、各ドキュメントを行として表現したいときに使います。行内で著者を比較したい場合や、データが時系列順に並んでいて時系列性を保ちたい場合に便利です。tm パッケージは「simple triplet matrix」クラスを使いますが、しばしば as.matrix() で DTM を再分類しておくと、オブジェクトの操作や確認が簡単になります。

指示

100 XP
  • clean_corp に DocumentTermMatrix() を適用して coffee_dtm を作成します。
  • as.matrix() を使って、coffee_dtm の行列表現である coffee_m を作成します。
  • dim() 関数で coffee_m の次元をコンソールに表示します。行数と列数に注目してください。
  • coffee_m から、ドキュメント(行)25~35と、用語(列)"star" と "starbucks" を含むサブセットを表示します。