1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 Kaggle 대회 공략하기

Connected

연습 문제

검증 점수 복제하기

영상에서 검증 점수와 Public Leaderboard 점수를 모두 보셨을 거예요. 하지만 코드 예시는 테스트 데이터만 제공됩니다. 검증 점수를 얻으려면 동일한 과정을 홀드아웃 세트에 반복해야 해요.

이 장 전반에서 New York City Taxi 대회 데이터를 사용합니다. 문제는 뉴욕시에서 택시 승차의 요금(fare amount)을 예측하는 것입니다. 대회 평가지표는 root mean squared error입니다.

첫 번째 목표는 검증 데이터에서 Baseline 모델을 평가하는 것이에요. "fare_amount"의 평균을 기반으로 한 가장 단순한 Baseline을 재현해 보겠습니다. 검증 전략으로는 30% 홀드아웃 분할을 사용했고, validation_train을 학습용, validation_test를 홀드아웃 DataFrame으로 사용했다는 점을 기억하세요. 두 DataFrame은 작업 공간에 준비되어 있습니다.

지침

100 XP
  • validation_train DataFrame 전체에서 "fare_amount"의 평균을 계산하세요.
  • 이 단순 예측 값을 홀드아웃의 모든 예측에 할당하세요. 결과는 "pred" 열에 저장하세요.