1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Rでのデータクリーニング

Connected

Bài tập

ペアブロッキング

Zagat と Fodor's は、いずれもレストランのレビューを収集している会社です。zagat と fodors データセットには、住所、電話番号、料理の種類など、さまざまなレストラン情報が含まれています。両方のデータセットに同じレストランが登場することもありますが、名前や電話番号がまったく同じ表記とは限りません。この章では、どのレストランが両方のデータセットに含まれているかを特定していきます。

その第一歩は、比較できるようにレコードのペアを作成することです。この演習では、まず取り得るすべてのペアを生成し、その後、クリーンアップ済みの city 列をブロッキング変数として使います。

zagat と fodors は利用可能です。

Hướng dẫn 1/2

undefined XP
  • 1
    • reclin パッケージを読み込みます。
    • zagat と fodors データセット間の取り得るすべてのレコードのペアを生成します。
  • 2
    • ペアブロッキングを使って、city 列の値が一致するペアのみを生成します。