1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

비행 시간 모델: 파이프라인 단계

이제 항공편 소요 시간 모델 파이프라인에 사용할 단계들을 만들어 보겠습니다. 다음 연습 문제에서 이 단계들로 파이프라인을 구성하고 회귀 모델을 만들 거예요.

StringIndexer, OneHotEncoder, VectorAssembler, LinearRegression 클래스는 이미 임포트되어 있습니다.

지침

100 XP
  • 'org' 열을 인덱스 열 'org_idx'로 변환하는 indexer를 만드세요.
  • 'org_idx'와 'dow' 열을 더미 변수 열 'org_dummy'와 'dow_dummy'로 변환하는 one-hot encoder를 만드세요.
  • 'km' 열과 두 개의 더미 변수 열을 결합하는 assembler를 만드세요. 출력 열 이름은 'features'로 하세요.
  • 항공편 소요 시간을 예측하는 linear regression 객체를 만드세요.

필요하시다면 IPython Shell 옆의 Slides 패널에서 강의 슬라이드를 다시 확인해 보세요.