1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Rで学ぶ自然言語処理入門

Connected

Exercise

コーパスを作成する

テキスト分析を行うために、2016年の米国選挙期間中にボットが自動生成した約20,000件のツイートを含む russian_tweets という tibble を作成しました。利用可能な分析手法を検討した結果、今回の目的には tm パッケージが最も手軽だと判断しました。分析を進めるには、まずコーパスを作成し、役立ちそうなメタデータを付与する必要があります。

これは Twitter の実データであり、罵り言葉や不快な表現が含まれる可能性があります(この演習および、実際の Twitter データを用いる以降の演習でも同様です)。

Instrukcje

100 XP
  • russian_tweets の content 列を使ってコーパスを作成します。
  • following 列と followers 列の両方を、メタデータとして tweet_corpus に付与します。
  • メタデータ表の先頭数行を出力します。