1. Learn
  2. /
  3. Courses
  4. /
  5. Machine Learning with PySpark

Connected

Exercise

ランダムフォレストで遅延フライトを予測する

この演習では、交差検証とアンサンブル手法を組み合わせます。遅延フライトを予測するために Random Forest 分類器を学習し、交差検証でモデルパラメータの最適値を選びます。

次のパラメータの良い値を探索します。

  • featureSubsetStrategy — 各ノードで分割時に考慮する特徴量数
  • maxDepth — 任意の分岐における最大の深さ(分割回数)

残念ながらこのモデルの構築には時間がかかるため、パイプラインで .fit() メソッドは実行しません。

RandomForestClassifier クラスはすでにセッションにインポートされています。

Instructions

100 XP
  • ランダムフォレスト分類器オブジェクトを作成します。
  • パラメーターグリッドビルダーオブジェクトを作成し、featureSubsetStrategy と maxDepth のグリッド点を追加します。
  • バイナリ分類用の評価器を作成します。
  • 推定器、パラメーターグリッド、評価器を指定してクロスバリデーターオブジェクトを作成します。5 分割(5-fold)交差検証を選びます。