1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

スパム分類器の学習

SMS データは分類器の構築に向けて前処理が完了しています。ここまでで実施した内容は次のとおりです。

  • 数字と句読点の除去
  • メッセージを単語(「トークン」)へ分割
  • ストップワードの除去
  • ハッシングトリックの適用
  • TF-IDF への変換

次に、TF-IDF データを学習用とテスト用に分割します。その後、学習データで Logistic Regression モデルを学習し、最後にテストデータでその性能を評価します。

データは sms に格納されており、LogisticRegression はすでにインポート済みです。

指示

100 XP
  • データを 4:1 の比率で学習用とテスト用に分割します。再現性のため乱数シードを 13 に設定します。
  • LogisticRegression オブジェクトを作成し、学習データに適合させます。
  • テストデータに対する予測を生成します。
  • 予測結果を用いて混同行列を作成します。