Membangun Model Regresi
Salah satu keunggulan modul PySpark ML adalah sebagian besar algoritma dapat dicoba dan diuji tanpa banyak mengubah kode. Random Forest Regression adalah model ansambel yang cukup sederhana, menggunakan bagging untuk melakukan fitting. Model ansambel berbasis pohon lainnya adalah Gradient Boosted Trees yang menggunakan pendekatan berbeda bernama boosting untuk melakukan fitting. Pada latihan ini, mari latih sebuah GBTRegressor.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Impor
GBTRegressordaripyspark.ml.regressionyang akan Anda perhatikan berada pada modul yang sama denganRandomForestRegressor. - Instansiasikan
GBTRegressordenganfeaturesColdiatur ke kolom vektor fitur kita bernamafeatures,labelColdiatur ke variabel terikat kita,SALESCLOSEPRICE, danseedacak ke42. - Latih model dengan memanggil
fit()padagbtmenggunakan data pelatihan yang telah diimpor,train_df.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from ____ import ____
# Train a Gradient Boosted Trees (GBT) model.
gbt = ____(featuresCol=____,
labelCol=____,
predictionCol="Prediction_Price",
seed=____
)
# Train model.
model = gbt.fit(train_df)