1. Learn
  2. /
  3. 课程
  4. /
  5. Python 数据清洗

Connected

道练习

查找重复项

向为 ride_sharing 提供数据的数据管道进行了更新,新增了 ride_id 列,用于表示每次行程的唯一标识符。

然而,更新后平均行程时长大幅缩短,且出现了设置在未来的不规则用户出生日期。更重要的是,行程数量一夜之间增长了 20%,这让您怀疑 ride_sharing DataFrame 中可能同时存在完整和不完整的重复。

在本练习中,您将通过查找这些重复项来验证这一怀疑。环境中已提供 ride_sharing 的一个样本,以及到目前为止您一直在使用的所有软件包。

说明

100 XP
  • 在 ride_sharing DataFrame 中查找 ride_id 的重复行,并将 keep 设为 False。
  • 以 duplicates 对 ride_sharing 进行子集化,并按 ride_id 排序,将结果赋给 duplicated_rides。
  • 按顺序打印 duplicated_rides 的 ride_id、duration 和 user_birth_year 列。