완전 중복

자전거 공유 데이터 파이프라인이 더 효율적으로 업데이트되었지만, 그 결과로 중복이 더 자주 발생할 수 있다는 알림을 받았어요. 매주 진행하는 주행 통계 분석에 기존 스크립트를 계속 사용하려면, 먼저 데이터셋의 모든 중복을 제거해야 합니다.

데이터 프레임의 여러 행이 모든 열에서 동일한 값을 가지면 서로의 완전 중복입니다. 이런 중복을 제거하는 것은 매우 중요해요. 동일한 값이 여러 번 반복되면 평균이나 중앙값 같은 요약 통계가 왜곡될 수 있기 때문입니다. 각 주행, 특히 ride_id는 고유해야 합니다.

dplyr는 로드되어 있고 bike_share_rides를 사용할 수 있습니다.