파이프라인에서의 전처리

Ames 주택 데이터에 대해 개별적으로 어떤 전처리 단계를 거쳐야 하는지 살펴봤으니, 이제 더 깔끔하고 간결한 DictVectorizer 방식을 사용해 보겠습니다. 이를 XGBoostRegressor와 함께 scikit-learn 파이프라인에 넣어 구성해 볼게요.

sklearn.feature_extraction에서 DictVectorizer, sklearn.pipeline에서 Pipeline을 임포트하세요.
X의 LotFrontage 열에 있는 결측값을 0으로 채우세요.
파이프라인의 스텝을 완성하세요. "ohe_onestep"에는 DictVectorizer(sparse=False), "xgb_model"에는 xgb.XGBRegressor()를 사용합니다.
Pipeline()과 steps를 사용해 파이프라인을 생성하세요.
Pipeline을 학습(fit)하세요. 이때 DictVectorizer가 이해하는 형식으로 변환하기 위해 X에 to_dict("records") 메서드를 호출하는 것을 잊지 마세요.

연습 문제

파이프라인에서의 전처리

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제