MulaiMulai sekarang secara gratis

Membangun Model Regresi

Salah satu keunggulan modul PySpark ML adalah sebagian besar algoritma dapat dicoba dan diuji tanpa banyak mengubah kode. Random Forest Regression adalah model ansambel yang cukup sederhana, menggunakan bagging untuk melakukan fitting. Model ansambel berbasis pohon lainnya adalah Gradient Boosted Trees yang menggunakan pendekatan berbeda bernama boosting untuk melakukan fitting. Pada latihan ini, mari latih sebuah GBTRegressor.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Impor GBTRegressor dari pyspark.ml.regression yang akan Anda perhatikan berada pada modul yang sama dengan RandomForestRegressor.
  • Instansiasikan GBTRegressor dengan featuresCol diatur ke kolom vektor fitur kita bernama features, labelCol diatur ke variabel terikat kita, SALESCLOSEPRICE, dan seed acak ke 42.
  • Latih model dengan memanggil fit() pada gbt menggunakan data pelatihan yang telah diimpor, train_df.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from ____ import ____

# Train a Gradient Boosted Trees (GBT) model.
gbt = ____(featuresCol=____,
                           labelCol=____,
                           predictionCol="Prediction_Price",
                           seed=____
                           )

# Train model.
model = gbt.fit(train_df)
Edit dan Jalankan Kode