1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータクリーニング

Connected

演習

つなぎ合わせましょう!

前のレッスンでは、restaurants と restaurants_new をリンクする作業の大部分を終えました。潜在的に一致する行の組を作成し、cuisine_type と city 列では完全一致を探しつつ、rest_name 列では類似文字列の比較を行いました。スコアを含む DataFrame は potential_matches に保存してあります。

いよいよ両方の DataFrame をリンクします。まず、上記の列で一致した restaurants_new のすべての行インデックスを potential_matches から取り出します。次に、これらのインデックスで restaurants_new をサブセット化し、最後に重複していない値を restaurants と連結します。すべての DataFrame は環境に用意されており、pandas は pd としてインポート済みです。

指示

100 XP
  • .sum() メソッドを使って、行合計が3以上の potential_matches のインスタンスを抽出します。
  • .get_level_values() メソッドを使い、matches から第2の列インデックスを取り出します。これは restaurants_new の一致レコードの行インデックスを表します。
  • matching_indices に含まれていない行を対象に、restaurants_new をサブセット化します。
  • restaurants と non_dup を連結します。