1. 학습
  2. /
  3. 강의
  4. /
  5. XGBoost로 익히는 Extreme Gradient Boosting

Connected

연습 문제

파이프라인에서의 전처리

Ames 주택 데이터에 대해 개별적으로 어떤 전처리 단계를 거쳐야 하는지 살펴봤으니, 이제 더 깔끔하고 간결한 DictVectorizer 방식을 사용해 보겠습니다. 이를 XGBoostRegressor와 함께 scikit-learn 파이프라인에 넣어 구성해 볼게요.

지침

100 XP
  • sklearn.feature_extraction에서 DictVectorizer, sklearn.pipeline에서 Pipeline을 임포트하세요.
  • X의 LotFrontage 열에 있는 결측값을 0으로 채우세요.
  • 파이프라인의 스텝을 완성하세요. "ohe_onestep"에는 DictVectorizer(sparse=False), "xgb_model"에는 xgb.XGBRegressor()를 사용합니다.
  • Pipeline()과 steps를 사용해 파이프라인을 생성하세요.
  • Pipeline을 학습(fit)하세요. 이때 DictVectorizer가 이해하는 형식으로 변환하기 위해 X에 to_dict("records") 메서드를 호출하는 것을 잊지 마세요.