1. 学习
  2. /
  3. 课程
  4. /
  5. Pythonで学ぶデータクリーニング

Connected

练习

類似したレストラン

前の演習では、レコードリンケージを使って restaurants と restaurants_new の両方のDataFrameをきれいにマージするために、両者のペアを生成しました。

レコードリンケージでは、DataFrameの列同士の照合にさまざまな方法があり、完全一致や文字列の類似度などを使い分けます。

すでに pairs にペアが作成されているので、各ペアについて city と cuisine_type 列では完全一致を、rest_name 列では文字列の類似度による一致を見つけます。pandas と recordlinkage の両方が環境に用意されています。

说明 1 / 共 4 个

undefined XP
    1
    2
    3
    4
  • recordlinkage.Compare() 関数を使って比較用オブジェクトを作成します。