tm でメタデータを取り込む

取り組む目的によっては、コーパスを作成するときに各ドキュメントのメタデータを保持したい場合があります。

ドキュメント単位のメタデータを取り込むには、列名と順序は次のとおりであることが必須です。

DataframeSource() の期待に合わせるために、列名を変更する必要があることがあります。names() 関数が役立ちます。

tweets はワークスペース内に、列 "num"、"text"、"screenName"、"created" を持つデータフレームとして存在します。

tweets の最初の列名を "doc_id" に変更します。
小さめの tweets データフレームに対して DataframeSource() を使い、ドキュメントのスキーマを設定します。
ドキュメント集合を、カスタム関数 clean_corpus() の中で ネスト した 揮発性 コーパスにします。
最初のツイートに text_corpus[[1]] のように二重角かっこを使って content() を適用し、クリーニング後のプレーンテキストを確認します。
最初のドキュメントに対して一重角かっこで meta() 関数を使い、すべてのメタデータが取り込まれていることを確認します。

コーパスの一部にアクセスする際は、二重と一重の角かっこの違いが重要です！この演習では、content() には二重、meta() には一重の角かっこを使います。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習