1. 학습
  2. /
  3. 강의
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

연습 문제

データフレームから VCorpus を作成する

テキストデータがデータフレームにある場合は、分析に DataframeSource() を使えます。DataframeSource() に渡すデータフレームは次のような特定の構造である必要があります。

  • 1列目 は doc_id という列名で、各行に一意の文字列が入っていること。
  • 2列目 は "UTF-8" エンコーディング(一般的です)の text という列名であること。
  • それ以外の 3列目以降 はメタデータと見なされ、そのまま保持されます。

この演習では、各ドキュメントに関連付けられたメタデータを抽出する meta() を紹介します。実務のデータには、著者、日付、トピックタグ、場所など、分析に役立つメタデータが含まれていることがよくあります。テキストをコーパスにしたら、meta() を使ってドキュメントレベルの追加情報を確認できます。

지침

100 XP

ワークスペースには、正しい列名といくつかのメタデータを持つシンプルなデータフレーム example_text があります。VectorSource() で作成した揮発性コーパス vec_corpus も用意されています。

  • example_text を使って DataframeSource() から df_source を作成してください。
  • df_source を VCorpus() で揮発性コーパスオブジェクトに変換し、df_corpus を作成してください。
  • df_corpus を出力してみましょう。含まれるドキュメント数と、保持されているドキュメントレベルのメタデータの数に注目してください。
  • df_corpus に対して meta() を使い、ドキュメントに関連するメタデータを表示してください。
  • 事前に読み込まれている vec_corpus オブジェクトを確認し、df_corpus とドキュメント数を比較してください。
  • vec_corpus に対しても meta() を使い、vec_corpus と df_corpus の間で見つかるメタデータの違いを比較してください。