1. Learn
  2. /
  3. 课程
  4. /
  5. Python 数据清洗

Connected

道练习

餐馆配对

在上一节课中,您清理了 restaurants 数据集,为构建餐馆推荐引擎做好了准备。现在有一个新的 DataFrame,名为 restaurants_new,其中包含从新的数据来源抓取的新餐馆,用于训练您的模型。

您已经使用本课程所学的方法清理了 cuisine_type 和 city 列。不过,您发现餐馆名称中存在带有拼写错误的重复项,这需要进行记录链接(record linkage),而不是与 restaurants 直接做连接。

在本练习中,您将完成记录链接的第一步,在 restaurants 与 restaurants_new 之间生成可能的行配对。两个 DataFrame,以及 pandas 和 recordlinkage 库,均已在您的环境中可用。

说明 1 / 共 2 个

undefined XP
    1
    2
  • 使用 recordlinkage 中的 Index() 函数实例化一个索引对象。
  • 使用 indexer 的 .block() 方法在 cuisine_type 上进行分块配对。
  • 按顺序对 restaurants 和 restaurants_new 进行索引以生成配对。