1. 学习
  2. /
  3. 课程
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

练习

회귀 모델 구축하기

PySpark ML 모듈의 큰 장점 중 하나는 대부분의 알고리즘을 코드 변경 없이 손쉽게 시도하고 검증할 수 있다는 점이에요. Random Forest Regression은 배깅을 사용하는 비교적 단순한 앙상블 모델입니다. 또 다른 트리 기반 앙상블 모델로는 Gradient Boosted Trees가 있는데, 이 모델은 부스팅이라는 다른 접근법을 사용해 적합합니다. 이 연습에서는 GBTRegressor를 학습해 보겠습니다.

说明

100 XP
  • RandomForestRegressor와 동일한 모듈인 pyspark.ml.regression에서 GBTRegressor를 임포트하세요.
  • featuresCol을 특징 벡터 열인 features, labelCol을 종속 변수 SALESCLOSEPRICE, 무작위 seed를 42로 지정해 GBTRegressor를 인스턴스화하세요.
  • 가져온 학습 데이터 train_df로 gbt에 fit()을 호출해 모델을 학습하세요.