1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

SMSスパムの最適化

先ほど作成したSMSスパムモデル用のパイプラインでは、各要素にデフォルトのパラメータを使っていました。しかし、そのままでは良いモデルになる可能性は高くありません。この演習では、いくつかのパラメータ値を試しながらパイプラインを実行します。各ハイパーパラメータの値をグリッド状に並べ、グリッドの各点を系統的に探索していきます。

この演習では、クロスバリデーションと組み合わせて、SMSスパム分類器に適したパラメータを選ぶためのパラメータグリッドを作成します。

次のオブジェクトはすでに定義されています。

  • hasher — HashingTF オブジェクト
  • logistic — LogisticRegression オブジェクト

指示

100 XP
  • パラメータグリッドビルダーオブジェクトを作成します。
  • HashingTF オブジェクトの numFeatures と binary に対するグリッドポイントを追加し、それぞれ 1024、4096、16384 と、True、False を与えます。
  • LogisticRegression オブジェクトの regParam と elasticNetParam に対するグリッドポイントを追加し、それぞれ 0.01、0.1、1.0、10.0 と、0.0、0.5、1.0 を与えます。
  • パラメータグリッドをビルドします。