1. Learn
  2. /
  3. Courses
  4. /
  5. Làm sạch dữ liệu với Python

Connected

Exercise

Xử lý dữ liệu trùng lặp

Ở bài trước, bạn đã xác nhận rằng bản cập nhật mới đổ vào ride_sharing có một lỗi tạo ra cả các hàng trùng lặp hoàn toàn lẫn không hoàn toàn cho một số giá trị ở cột ride_id, và đôi khi có giá trị lệch ở các cột user_birth_year và duration.

Trong bài này, bạn sẽ xử lý các hàng trùng lặp đó bằng cách trước hết loại bỏ các bản trùng lặp hoàn toàn, sau đó gộp các hàng trùng lặp không hoàn toàn thành một hàng, đồng thời giữ duration trung bình và user_birth_year nhỏ nhất cho mỗi nhóm hàng trùng lặp không hoàn toàn.

Instructions

100 XP
  • Loại bỏ các bản trùng lặp hoàn toàn trong ride_sharing và lưu kết quả vào ride_dup.
  • Tạo từ điển statistics chứa phép tổng hợp min cho user_birth_year và mean cho duration.
  • Loại bỏ các bản trùng lặp không hoàn toàn bằng cách group theo ride_id và áp dụng phép tổng hợp trong statistics.
  • Tìm trùng lặp lần nữa và chạy câu lệnh assert để xác thực việc khử trùng lặp.