1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

항공편 소요 시간 모델: 파이프라인 모델

이제 각 스테이지를 파이프라인으로 묶을 준비가 되었어요.

파이پ라인을 구성한 뒤 학습용 데이터로 파이프라인을 학습시킬 거예요. 그러면 파이프라인의 각 스테이지가 차례대로 학습용 데이터에 적용됩니다. 어떤 스테이지도 테스트 데이터에 노출되지 않으니, 데이터 누수는 없습니다!

전체 파이프라인이 학습을 마치면 이를 사용해 테스트 데이터에 대한 예측을 수행해요.

데이터셋은 flights이며, 무작위로 flights_train과 flights_test로 분할되어 있어요.

지침

100 XP
  • 파이프라인을 생성하는 클래스를 임포트하세요.
  • indexer, onehot, assembler, regression 순서로 스테이지를 지정해 파이프라인 객체를 생성하세요.
  • 학습용 데이터로 파이프라인을 학습시키세요.
  • 테스트 데이터에 대한 예측을 생성하세요.