1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 Kaggle 대회 공략하기

Connected

연습 문제

EDA 시각화 I

기본 통계를 몇 가지 살펴봤으니, 이제 데이터 간 의존성에 대한 아이디어를 세우고 검증해 볼 차례예요. 택시 대회에서 가져온 train DataFrame은 워크스페이스에 이미 준비되어 있습니다.

먼저, 요금(fare amount)과 이동 거리의 관계를 산점도로 그려봅시다. 직관적으로는 이동 거리가 길수록 요금이 높아지겠죠.

두 지리 좌표 간 거리를 킬로미터 단위로 얻기 위해 Haversine 거리를 사용하겠습니다. 계산은 여러분을 위해 정의해 둔 haversine_distance() 함수로 할 수 있어요. 이 함수는 train DataFrame을 입력으로 받습니다.

지침

100 XP
  • 픽업 지점과 드롭오프 지점 사이의 Haversine 거리를 새 변수 "distance_km"으로 생성하세요.
  • x축에 "fare_amount", y축에 "distance_km"을 놓고 산점도를 그리세요. 산점도는 matplotlib의 scatter() 메서드를 사용하세요.
  • 이상치를 피하기 위해 이동 거리의 범위를 0에서 50킬로미터로 제한하세요.