1. सीखें
  2. /
  3. पाठ्यक्रम
  4. /
  5. PySpark로 하는 Machine Learning

Connected

अभ्यास

비행 시간 모델: 출발 공항 추가

공항마다 혼잡도와 규모가 다릅니다. 규모가 크거나 붐비는 공항에서 출발하는 항공편은 활주로나 이륙 슬롯을 기다리느라 지상 이동 시간이 더 길어질 수 있어요. 따라서 비행 시간은 이동 거리뿐 아니라 어느 공항에서 출발하는지도 영향을 받을 수 있습니다.

이번에는 출발 공항을 예측 변수로 포함해 회귀 모델을 조금 더 정교하게 만들어 보겠습니다.

데이터는 학습용과 테스트용으로 분할되어 각각 flights_train, flights_test로 제공됩니다. org 열에 저장된 출발 공항은 org_idx로 인덱싱되었고, 다시 원-핫 인코딩되어 org_dummy로 변환되었습니다. 처음 몇 개 레코드는 터미널에 표시되어 있습니다.

निर्देश

100 XP
  • 학습용 데이터에 선형 회귀 모델을 학습(fit)하세요.
  • 테스트용 데이터에 대해 예측을 수행하세요.
  • 테스트 데이터 예측에 대한 RMSE를 계산하세요.