分類モデリングの例

以前に、分類のためのロシア語ツイートのセットを準備しました。20,000件のツイートのうち、account_type が Left または Right のものを抽出し、それぞれ最初の2,000件を選びました。すでにツイートを単語にトークン化し、ストップワードを除去し、ステミングを行っています。さらに、単語の出現数を、重みとしてTFIDF値を用いたドキュメント-ターム行列に変換し、この行列を left_right_matrix_small として保存しました。

この行列を使って、あるツイートがリベラル寄りのボット（left-leaning）か、保守寄りのボット（right-leaning）によって生成されたかを予測します。ラベルはベクター left_right_labels にあります。