1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. R로 데이터 정리하기

Connected

Exercises

완전 중복

자전거 공유 데이터 파이프라인이 더 효율적으로 업데이트되었지만, 그 결과로 중복이 더 자주 발생할 수 있다는 알림을 받았어요. 매주 진행하는 주행 통계 분석에 기존 스크립트를 계속 사용하려면, 먼저 데이터셋의 모든 중복을 제거해야 합니다.

데이터 프레임의 여러 행이 모든 열에서 동일한 값을 가지면 서로의 완전 중복입니다. 이런 중복을 제거하는 것은 매우 중요해요. 동일한 값이 여러 번 반복되면 평균이나 중앙값 같은 요약 통계가 왜곡될 수 있기 때문입니다. 각 주행, 특히 ride_id는 고유해야 합니다.

dplyr는 로드되어 있고 bike_share_rides를 사용할 수 있습니다.

คำแนะนำ

100 XP
  • bike_share_rides에서 완전 중복의 총 개수를 구하세요.
  • bike_share_rides에서 모든 완전 중복을 제거하고 새로운 데이터 프레임을 bike_share_rides_unique로 저장하세요.
  • 새 데이터 프레임 bike_share_rides_unique에서 완전 중복의 총 개수를 구하세요.