データフレームから VCorpus を作成する

テキストデータがデータフレームにある場合は、分析に DataframeSource() を使えます。DataframeSource() に渡すデータフレームは次のような特定の構造である必要があります。

1列目 は doc_id という列名で、各行に一意の文字列が入っていること。
2列目 は "UTF-8" エンコーディング（一般的です）の text という列名であること。
それ以外の 3列目以降 はメタデータと見なされ、そのまま保持されます。

この演習では、各ドキュメントに関連付けられたメタデータを抽出する meta() を紹介します。実務のデータには、著者、日付、トピックタグ、場所など、分析に役立つメタデータが含まれていることがよくあります。テキストをコーパスにしたら、meta() を使ってドキュメントレベルの追加情報を確認できます。

ワークスペースには、正しい列名といくつかのメタデータを持つシンプルなデータフレーム example_text があります。VectorSource() で作成した揮発性コーパス vec_corpus も用意されています。

example_text を使って DataframeSource() から df_source を作成してください。
df_source を VCorpus() で揮発性コーパスオブジェクトに変換し、df_corpus を作成してください。
df_corpus を出力してみましょう。含まれるドキュメント数と、保持されているドキュメントレベルのメタデータの数に注目してください。
df_corpus に対して meta() を使い、ドキュメントに関連するメタデータを表示してください。
事前に読み込まれている vec_corpus オブジェクトを確認し、df_corpus とドキュメント数を比較してください。
vec_corpus に対しても meta() を使い、vec_corpus と df_corpus の間で見つかるメタデータの違いを比較してください。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習