ドキュメント-単語行列を作る

ここまでのテキストマイニングの基礎で疲れていないと良いのですが、念のためコーヒーの話題に戻りましょう。coffee に関するツイートからドキュメント-単語行列を作りながら、Starbucks で一息つきます。

coffee.csv から始めて、一般的な前処理を施し、clean_corp というクリーンなコーパスを用意しました。

ドキュメント-単語行列は、各ドキュメントを行として表現したいときに使います。行内で著者を比較したい場合や、データが時系列順に並んでいて時系列性を保ちたい場合に便利です。tm パッケージは「simple triplet matrix」クラスを使いますが、しばしば as.matrix() で DTM を再分類しておくと、オブジェクトの操作や確認が簡単になります。