1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 Kaggle 대회 공략하기

Connected

연습 문제

날짜 기반 베이스라인

이미 3가지 서로 다른 베이스라인 모델을 만들었어요. 연습을 더 해보기 위해 몇 가지를 더 만들어 보겠습니다. 첫 번째 모델은 그룹화 변수에 기반합니다. 탑승 요금은 하루 중 어느 시간대인지에 따라 달라질 수 있어요. 예를 들어, 러시아워에는 가격이 더 높을 수 있습니다.

여러분의 목표는 해당 시간대에 대해 평균 "fare_amount"를 할당하는 베이스라인 모델을 만드는 것입니다. 지금은 전체 train 데이터에 대해 모델을 만들고, test 데이터셋에 대해 예측을 수행할 거예요.

train과 test DataFrame은 작업 공간에 준비되어 있습니다. 또한 두 DataFrame의 "pickup_datetime" 열은 이미 datetime 객체로 변환되어 있어요.

지침

100 XP
  • train과 test DataFrame에서 "pickup_datetime" 열로부터 시간을 추출하세요.
  • train 데이터에서 시간별 평균 "fare_amount"를 계산하세요.
  • 얻은 그룹핑을 사용해 pandas의 map() 메서드로 test 예측을 만드세요.
  • 예측 값을 파일로 저장하세요.