1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

最良のフライト時間モデルを分解して理解する

先ほど、フライト時間を予測する線形回帰モデルの良いハイパーパラメータを探すために、CrossValidator を設定しました。

モデルのパイプラインは複数のステージ(StringIndexer、OneHotEncoder、VectorAssembler、LinearRegression 型のオブジェクト)で構成され、順番に実行されます。ステージはパイプラインオブジェクトの stages 属性として取得でき、リストで表され、リストに並んだ順に実行されます。

ここではパイプラインを詳しく確認し、ステージを取り出して、テストデータに対して予測を行います。

次のオブジェクトはすでに作成済みです。

  • cv — 学習済みの CrossValidatorModel オブジェクト
  • evaluator — RegressionEvaluator オブジェクト

フライトのデータはランダムに flights_train と flights_test に分割されています。

指示

100 XP
  • 最良モデルを取得します。
  • 最良モデル内のステージを確認します。
  • 線形回帰のステージを取り出し、そのパラメータを抽出します。
  • 最良モデルでテストデータに対する予測を生成し、RMSE を計算します。