1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ自然言語処理入門

Connected

演習

データ準備

2016年の米国選挙では、ロシアのツイートボットが民主党・共和党の双方に向けて政治的レトリックを継続的に拡散していました。こうしたツイートのデータセット russian_tweets が与えられています。これらのツイートを、左派(民主党)か右派(共和党)かで分類することにしました。分類モデルを構築する前に、モデリングのためにテキストをクリーンアップして準備する必要があります。

指示

100 XP
  • トークンのステミングを行い、トークン化処理を仕上げます。
  • cast_dtm() を使ってドキュメント-単語行列を作成します。
  • ドキュメント-単語行列にtfidfの重み付けを適用します。
  • 行列を出力(印刷)します。