1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

학습/테스트 분할

Machine Learning 모델을 객관적으로 평가하려면 독립된 데이터셋에서 테스트해야 합니다. 학습에 사용한 데이터로 모델을 평가할 수는 없습니다. 그런 데이터에서는 모델이 (상대적으로) 당연히 잘 동작할 테니까요!

데이터를 두 구성 요소로 분할하겠습니다.

  • 학습 데이터(모델을 학습하는 데 사용)와
  • 테스트 데이터(모델을 평가하는 데 사용).

참고: 이제부터는 연습이 더 빠르게 실행되도록 flights 데이터의 더 작은 하위 집합으로 작업합니다.

지침

100 XP
  • flights 데이터를 80:20 비율로 무작위 분할하세요. 재현 가능성을 위해 분할에 사용할 난수 시드를 43으로 설정하세요.
  • 원본 데이터의 약 80% 레코드가 학습 데이터에 포함되어 있는지 확인하세요.