1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

단순 항공편 소요 시간 모델 교차 검증

이미 항공편 소요 시간을 예측하는 여러 모델을 만들고 간단한 학습/테스트 분할로 평가해 보셨습니다. 하지만 교차 검증은 모델 성능을 평가하는 훨씬 더 좋은 방법입니다.

이번 연습에서는 교차 검증을 사용해 항공편 소요 시간에 대한 단순 모델을 학습해 보겠습니다. 이동 시간은 보통 거리와 강하게 상관하므로, km 열만 사용해도 꽤 괜찮은 모델을 만들 수 있어요.

데이터는 무작위로 flights_train과 flights_test로 분할되어 있습니다.

다음 클래스들은 이미 임포트되어 있습니다: LinearRegression, RegressionEvaluator, ParamGridBuilder, CrossValidator.

지침

100 XP
  • 빈 파라미터 그리드를 생성하세요.
  • 선형 회귀 모델을 구성하고 평가할 객체를 만드세요. 모델은 "duration" 필드를 예측해야 합니다.
  • 교차 검증기 객체를 만드세요. estimator, estimatorParamMaps, evaluator 인자에 값을 제공하고, 5-겹 교차 검증을 선택하세요.
  • 학습 데이터의 여러 폴드에 걸쳐 모델을 학습하고 테스트하세요.