1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Gradient Boosting Cực Mạnh với XGBoost

Connected

Bài tập

Tiền xử lý trong một pipeline

Giờ bạn đã biết từng bước cần làm để xử lý đúng dữ liệu nhà ở Ames, hãy dùng cách tiếp cận DictVectorizer gọn gàng và súc tích hơn, đặt nó cùng với XGBoostRegressor bên trong một pipeline của scikit-learn.

Hướng dẫn

100 XP
  • Import DictVectorizer từ sklearn.feature_extraction và Pipeline từ sklearn.pipeline.
  • Điền các giá trị còn thiếu trong cột LotFrontage của X bằng 0.
  • Hoàn thiện các bước của pipeline với DictVectorizer(sparse=False) cho "ohe_onestep" và xgb.XGBRegressor() cho "xgb_model".
  • Tạo pipeline bằng Pipeline() và steps.
  • Fit Pipeline. Đừng quên chuyển X sang định dạng mà DictVectorizer hiểu bằng cách gọi phương thức to_dict("records") trên X.