1. Учиться
  2. /
  3. Courses
  4. /
  5. Rで学ぶ自然言語処理入門

Connected

Exercise

分類モデリングの例

以前に、分類のためのロシア語ツイートのセットを準備しました。20,000件のツイートのうち、account_type が Left または Right のものを抽出し、それぞれ最初の2,000件を選びました。すでにツイートを単語にトークン化し、ストップワードを除去し、ステミングを行っています。さらに、単語の出現数を、重みとしてTFIDF値を用いたドキュメント-ターム行列に変換し、この行列を left_right_matrix_small として保存しました。

この行列を使って、あるツイートがリベラル寄りのボット(left-leaning)か、保守寄りのボット(right-leaning)によって生成されたかを予測します。ラベルはベクター left_right_labels にあります。

Инструкции

100 XP
  • 再現性のために乱数シードを 1111 に設定します。
  • 学習用データとテストデータを作成します。学習用データには75%を使用します。
  • 学習用データでランダムフォレストモデルを実行し、応答ベクトル y には left_right_labels を指定します。
  • ランダムフォレストの結果を出力します。