1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với Python

Connected

Bài tập

Tìm bản ghi trùng lặp

Một bản cập nhật mới cho pipeline dữ liệu cấp vào ride_sharing đã thêm cột ride_id, đại diện cho mã định danh duy nhất của mỗi chuyến đi.

Tuy nhiên, bản cập nhật này trùng với việc thời lượng chuyến đi trung bình giảm mạnh và có các năm sinh người dùng bất thường đặt ở tương lai. Quan trọng hơn, số chuyến đi đã tăng 20% chỉ sau một đêm, khiến bạn nghi ngờ rằng có cả bản ghi trùng lặp hoàn chỉnh và không hoàn chỉnh trong DataFrame ride_sharing.

Trong bài tập này, bạn sẽ kiểm chứng nghi ngờ đó bằng cách tìm các bản ghi trùng lặp. Một mẫu của ride_sharing đã có trong môi trường của bạn, cùng với tất cả các gói bạn đã dùng từ trước đến nay.

Hướng dẫn

100 XP
  • Tìm các hàng có ride_id trùng lặp trong DataFrame ride_sharing và đặt keep là False.
  • Lọc ride_sharing theo duplicates, sắp xếp theo ride_id và gán kết quả cho duplicated_rides.
  • In các cột ride_id, duration và user_birth_year của duplicated_rides theo đúng thứ tự đó.