1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark入門

Connected

演習

モデルを学習する

ついにモデルを学習し、最良のモデルを選ぶ準備が整いました!

ただし、クロスバリデーションは計算コストがとても高い手法です。すべてのモデルを学習させると、DataCamp 上では時間がかかりすぎてしまいます。

ローカル環境で行う場合は、次のコードを使います。

# クロスバリデーションでモデルを学習
models = cv.fit(training)

# 最良モデルを取り出す
best_lr = models.bestModel

学習用データは training、ロジスティック回帰モデルの学習には lr を使っていることを思い出してください。クロスバリデーションにより、最良のパラメータは regParam=0 と elasticNetParam=0 と選ばれました。これは既定値なので、学習前に lr に対して追加の設定を行う必要はありません。

指示

100 XP
  • training データに対して lr.fit() を呼び出し、best_lr を作成します。
  • best_lr を表示して、LogisticRegressionModel クラスのオブジェクトであることを確認します。