1. Learn
  2. /
  3. 课程
  4. /
  5. Python 数据清洗

Connected

道练习

处理重复值

在上一个练习中,您已经验证:导入到 ride_sharing 的最新更新存在一个缺陷,导致 ride_id 列的某些取值出现完全重复行和不完整重复行,并且 user_birth_year 与 duration 列偶尔还会有不一致的取值。

在本练习中,您将先删除完全重复的行,然后将不完整的重复行合并为一行;在合并时,对每组不完整重复行保留 duration 的平均值,以及 user_birth_year 的最小值。

说明

100 XP
  • 删除 ride_sharing 中完全重复的行,并将结果保存到 ride_dup。
  • 创建 statistics 字典:对 user_birth_year 使用最小值聚合(min),对 duration 使用平均值聚合(mean)。
  • 通过按 ride_id 分组并应用 statistics 中的聚合来删除不完整重复行。
  • 再次查找重复项,并运行 assert 语句以验证去重结果。