1. 학습
  2. /
  3. 강의
  4. /
  5. Làm sạch dữ liệu trong R

Connected

연습 문제

Bản sao đầy đủ

Bạn vừa được thông báo rằng pipeline dữ liệu chia sẻ xe đạp đã được cập nhật để hiệu quả hơn, nhưng vì thế khả năng phát sinh bản sao cũng cao hơn. Để tiếp tục dùng cùng các script cho phân tích hàng tuần về thống kê chuyến đi, bạn cần đảm bảo mọi bản sao trong bộ dữ liệu được loại bỏ trước.

Khi nhiều hàng trong một data frame có cùng giá trị ở tất cả các cột, chúng là bản sao đầy đủ của nhau. Việc loại bỏ những bản sao này rất quan trọng, vì lặp lại cùng một giá trị nhiều lần có thể làm sai lệch các thống kê tóm tắt như mean và median. Mỗi chuyến đi, bao gồm ride_id, phải là duy nhất.

dplyr đã được nạp và bike_share_rides đã sẵn sàng.

지침

100 XP
  • Lấy tổng số bản sao đầy đủ trong bike_share_rides.
  • Loại bỏ mọi bản sao đầy đủ khỏi bike_share_rides và lưu data frame mới là bike_share_rides_unique.
  • Lấy tổng số bản sao đầy đủ trong data frame mới bike_share_rides_unique.