MulaiMulai sekarang secara gratis

Prapemrosesan di dalam pipeline

Sekarang setelah Anda melihat langkah-langkah yang perlu dilakukan secara terpisah untuk memroses himpunan data perumahan Ames dengan benar, mari gunakan pendekatan DictVectorizer yang jauh lebih rapi dan ringkas, lalu gabungkan dengan XGBoostRegressor di dalam pipeline scikit-learn.

Latihan ini adalah bagian dari kursus

Extreme Gradient Boosting dengan XGBoost

Lihat Kursus

Petunjuk latihan

  • Impor DictVectorizer dari sklearn.feature_extraction dan Pipeline dari sklearn.pipeline.
  • Isi nilai yang hilang pada kolom LotFrontage di X dengan 0.
  • Lengkapi langkah-langkah pipeline dengan DictVectorizer(sparse=False) untuk "ohe_onestep" dan xgb.XGBRegressor() untuk "xgb_model".
  • Buat pipeline menggunakan Pipeline() dan steps.
  • Latih Pipeline. Jangan lupa mengonversi X ke format yang dipahami DictVectorizer dengan memanggil metode to_dict("records") pada X.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import necessary modules
____
____

# Fill LotFrontage missing values with 0
X.LotFrontage = ____

# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
         ("xgb_model", ____)]

# Create the pipeline: xgb_pipeline
xgb_pipeline = ____

# Fit the pipeline
____
Edit dan Jalankan Kode