1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータクリーニング

Connected

演習

レストランのペア

前のレッスンでは、レストラン推薦エンジンを構築できるように restaurants データセットをクリーンアップしました。新しいデータソースからスクレイピングした新規レストランを含む restaurants_new という新しい DataFrame も用意されており、モデルの学習に使います。

これまでのコースで学んだ手法を使って、cuisine_type と city 列はすでにクリーンアップ済みです。しかし、レストラン名にタイプミスなどの重複が見つかったため、restaurants との単純な結合ではなくレコードリンケージが必要です。

この演習では、レコードリンケージの最初のステップとして、restaurants と restaurants_new 間で取り得る行のペアを生成します。両方の DataFrame、pandas、そして recordlinkage は環境に読み込まれています。

指示1 / 2

undefined XP
    1
    2
  • recordlinkage の Index() 関数を使ってインデクサ(indexing オブジェクト)を作成します。
  • indexer の .block() メソッドで cuisine_type によるブロッキングを行います。
  • restaurants、続いて restaurants_new の順にインデクシングしてペアを生成します。