Tiền xử lý trong một pipeline

Giờ bạn đã biết từng bước cần làm để xử lý đúng dữ liệu nhà ở Ames, hãy dùng cách tiếp cận DictVectorizer gọn gàng và súc tích hơn, đặt nó cùng với XGBoostRegressor bên trong một pipeline của scikit-learn.

Import DictVectorizer từ sklearn.feature_extraction và Pipeline từ sklearn.pipeline.
Điền các giá trị còn thiếu trong cột LotFrontage của X bằng 0.
Hoàn thiện các bước của pipeline với DictVectorizer(sparse=False) cho "ohe_onestep" và xgb.XGBRegressor() cho "xgb_model".
Tạo pipeline bằng Pipeline() và steps.
Fit Pipeline. Đừng quên chuyển X sang định dạng mà DictVectorizer hiểu bằng cách gọi phương thức to_dict("records") trên X.

Bài tập

Tiền xử lý trong một pipeline

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập