1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

항공편 소요 시간 모델: 출발 시간 추가

이전 연습 문제에서 출발 시간을 구간화(bucket)하고 더미 변수로 변환했어요. 이제 그 더미 변수를 항공편 소요 시간에 대한 회귀 모델에 포함해 보겠습니다.

데이터는 flights에 있습니다. km, org_dummy, depart_dummy 열은 features로 묶여 있으며, km는 인덱스 0, org_dummy는 인덱스 1부터 7, depart_dummy는 인덱스 8부터 14까지입니다.

데이터는 학습용과 테스트용으로 분할되었고, 선형 회귀 모델 regression이 학습용 데이터로 학습되었습니다. 테스트 데이터에 대한 예측은 완료되었고 predictions로 제공됩니다.

지침

100 XP
  • 테스트 데이터 예측에 대한 RMSE를 구하세요.
  • OGG에서 21:00~24:00 사이에 출발하는 항공편의 지상 체류 시간 평균을 구하세요.
  • OGG에서 03:00~06:00 사이에 출발하는 항공편의 지상 체류 시간 평균을 구하세요.
  • JFK에서 03:00~06:00 사이에 출발하는 항공편의 지상 체류 시간 평균을 구하세요.