1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 데이터 정제하기

Connected

연습 문제

중복값 찾기

ride_sharing으로 데이터를 공급하는 파이프라인에 신규 업데이트가 적용되면서 각 이동을 고유하게 식별하는 ride_id 열이 추가되었어요.

하지만 이 업데이트 이후 평균 이동 시간(duration)이 비정상적으로 짧아지고, 사용자 출생 연도가 미래로 설정된 경우가 나타났습니다. 더 중요하게는 하룻밤 사이 이용 횟수가 20% 증가했어요. 이를 통해 ride_sharing DataFrame에 완전 중복과 불완전 중복이 모두 있을 수 있다고 의심하게 됩니다.

이번 연습 문제에서는 이러한 의심을 중복값을 찾아 확인해 보겠습니다. 작업에 필요한 ride_sharing 샘플과 지금까지 사용한 패키지는 모두 환경에 준비되어 있어요.

지침

100 XP
  • keep을 False로 설정하여 ride_sharing DataFrame에서 ride_id가 중복된 행을 찾으세요.
  • duplicates를 사용해 ride_sharing을 서브셋하고, ride_id로 정렬한 뒤 결과를 duplicated_rides에 할당하세요.
  • duplicated_rides에서 ride_id, duration, user_birth_year 열을 그 순서대로 출력하세요.