1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

ベクターを VCorpus オブジェクトにする (2)

ベクターを Source オブジェクトに変換できたので、次はそれを tm の別の関数 VCorpus() に渡して、揮発性コーパス(volatile corpus)を作成します。けっこうシンプルですよね。

VCorpus オブジェクトは入れ子のリスト(リストのリスト)です。VCorpus の各インデックスには PlainTextDocument オブジェクトがあり、これは実際のテキストデータ(content)と、それに対応するメタデータ(meta)を含むリストです。全体像をつかむには、VCorpus オブジェクトを可視化してみると役立ちます。

単一のドキュメントオブジェクト(10番目)を確認するには、二重の角括弧で抽出します。

coffee_corpus[[10]]

実際のテキストを確認するには、リストを2回インデックス指定します。タイムスタンプなどのドキュメントのメタデータにアクセスするには、[1] を [2] に変更します。もう一つのプレーンテキストの確認方法は、content() 関数を使うことです。こちらは2回目の角括弧が不要です。

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

指示

100 XP
  • coffee_source オブジェクトに対して VCorpus() 関数を呼び出し、coffee_corpus を作成します。
  • コンソールに出力して、coffee_corpus が VCorpus オブジェクトであることを確認します。
  • coffee_corpus の15番目の要素をコンソールに出力し、15番目のツイートの本文とメタデータを含む PlainTextDocument であることを確かめます。二重角括弧で抽出してください。
  • coffee_corpus 内の15番目のツイートの本文を出力します。該当ツイートを二重角括弧で選び、続けて単一角括弧でその本文を取り出してください。
  • coffee_corpus 内の10番目のツイートの content() を出力します。