Prapemrosesan di dalam pipeline
Sekarang setelah Anda melihat langkah-langkah yang perlu dilakukan secara terpisah untuk memroses himpunan data perumahan Ames dengan benar, mari gunakan pendekatan DictVectorizer yang jauh lebih rapi dan ringkas, lalu gabungkan dengan XGBoostRegressor di dalam pipeline scikit-learn.
Latihan ini adalah bagian dari kursus
Extreme Gradient Boosting dengan XGBoost
Petunjuk latihan
- Impor
DictVectorizerdarisklearn.feature_extractiondanPipelinedarisklearn.pipeline. - Isi nilai yang hilang pada kolom
LotFrontagediXdengan0. - Lengkapi langkah-langkah pipeline dengan
DictVectorizer(sparse=False)untuk"ohe_onestep"danxgb.XGBRegressor()untuk"xgb_model". - Buat pipeline menggunakan
Pipeline()dansteps. - Latih
Pipeline. Jangan lupa mengonversiXke format yang dipahamiDictVectorizerdengan memanggil metodeto_dict("records")padaX.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import necessary modules
____
____
# Fill LotFrontage missing values with 0
X.LotFrontage = ____
# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
("xgb_model", ____)]
# Create the pipeline: xgb_pipeline
xgb_pipeline = ____
# Fit the pipeline
____