スパム分類器の学習

SMS データは分類器の構築に向けて前処理が完了しています。ここまでで実施した内容は次のとおりです。

数字と句読点の除去
メッセージを単語（「トークン」）へ分割
ストップワードの除去
ハッシングトリックの適用
TF-IDF への変換

次に、TF-IDF データを学習用とテスト用に分割します。その後、学習データで Logistic Regression モデルを学習し、最後にテストデータでその性能を評価します。

データは sms に格納されており、LogisticRegression はすでにインポート済みです。

データを 4:1 の比率で学習用とテスト用に分割します。再現性のため乱数シードを 13 に設定します。
LogisticRegression オブジェクトを作成し、学習データに適合させます。
テストデータに対する予測を生成します。
予測結果を用いて混同行列を作成します。