Prapemrosesan di dalam pipeline

Sekarang setelah Anda melihat langkah-langkah yang perlu dilakukan secara terpisah untuk memroses himpunan data perumahan Ames dengan benar, mari gunakan pendekatan DictVectorizer yang jauh lebih rapi dan ringkas, lalu gabungkan dengan XGBoostRegressor di dalam pipeline scikit-learn.

Latihan ini merupakan bagian dari kursus

Extreme Gradient Boosting dengan XGBoost

Lihat Kursus

Instruksi latihan

Impor DictVectorizer dari sklearn.feature_extraction dan Pipeline dari sklearn.pipeline.
Isi nilai yang hilang pada kolom LotFrontage di X dengan 0.
Lengkapi langkah-langkah pipeline dengan DictVectorizer(sparse=False) untuk "ohe_onestep" dan xgb.XGBRegressor() untuk "xgb_model".
Buat pipeline menggunakan Pipeline() dan steps.
Latih Pipeline. Jangan lupa mengonversi X ke format yang dipahami DictVectorizer dengan memanggil metode to_dict("records") pada X.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import necessary modules
____
____

# Fill LotFrontage missing values with 0
X.LotFrontage = ____

# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
         ("xgb_model", ____)]

# Create the pipeline: xgb_pipeline
xgb_pipeline = ____

# Fit the pipeline
____

Edit dan Jalankan Kode