Twitterデータの評価指標

ツイートのセンチメントを予測するロジスティック回帰モデルを学習し、テストセットでさまざまな指標を用いて性能を評価します。

行列 X は用意済みで、text 列に対してBOWで作成した特徴量が含まれています。

ラベルは y というベクトルに格納されています。ベクトル y は、ネガティブを 0、ニュートラルを 1、ポジティブを 2 としています。クラスが3つありますが、これは分類問題のままです。正解率は依然として正しく予測できたインスタンスの割合を測る指標です。混同行列は 3x3 になり、各行はクラス 2、1、0 に予測された件数を、各列はクラス 2、1、0 の真の件数を表します。