1. Learn
  2. /
  3. Cursuri
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

exercițiu

回帰モデルを構築する

PySpark の ML モジュールの優れている点は、ほとんどのアルゴリズムをコードを大きく変えずに試して評価できることです。Random Forest Regression は、バギングで学習する比較的シンプルなアンサンブルモデルです。もう一つの木ベースのアンサンブルモデルに Gradient Boosted Trees があり、こちらはブースティングという別の手法で学習します。この演習では GBTRegressor を学習してみましょう。

Instrucțiuni

100 XP
  • RandomForestRegressor と同じモジュールである pyspark.ml.regression から GBTRegressor をインポートします。
  • GBTRegressor をインスタンス化し、featuresCol は特徴量のベクトル列 features、labelCol は目的変数 SALESCLOSEPRICE、ランダムな seed は 42 に設定します。
  • インポート済みの学習データ train_df を使い、gbt に対して fit() を呼び出してモデルを学習します。