1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

ベクターを VCorpus オブジェクトにする(1)

前の演習で、テキストデータを coffee_tweets というベクターとして読み込みましたね。次のステップは、このテキストデータを含むベクターを「コーパス」に変換することです。動画で学んだとおり、コーパスは文書の集合ですが、tm の領域では R がそれをデータ型として扱うことも知っておくとよいでしょう。

コーパスのデータ型には、永続コーパスである PCorpus と、揮発性コーパスである VCorpus の2種類があります。両者の違いは、本質的には文書集合をコンピュータ上のどこに保存するかという点にあります。このコースでは、ディスクに保存せずコンピュータのRAM上に保持され、メモリ効率の良い揮発性コーパスを使用します。

揮発性コーパスを作るには、coffee_tweets というテキストのベクター内の各要素を、R が1つの文書として解釈できる必要があります。tm パッケージには、そのための「Source」関数が用意されています。この演習では、テキストデータがベクターに入っているため、VectorSource() という Source 関数を使います。この関数の出力は Source オブジェクトと呼ばれます。さっそく試してみましょう!

指示

100 XP
  • tm パッケージを読み込みます。
  • coffee_tweets ベクターから Source オブジェクトを作成し、新しいオブジェクト名を coffee_source とします。