1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu trong R

Connected

Bài tập

Chặn theo cặp (pair blocking)

Zagat và Fodor's đều là các công ty thu thập đánh giá nhà hàng. Bộ dữ liệu zagat và fodors đều chứa thông tin về nhiều nhà hàng, bao gồm địa chỉ, số điện thoại và loại ẩm thực. Một số nhà hàng xuất hiện ở cả hai bộ dữ liệu, nhưng tên hoặc số điện thoại có thể không hoàn toàn trùng khớp. Trong chương này, bạn sẽ từng bước xác định những nhà hàng xuất hiện trong cả hai bộ dữ liệu.

Bước đầu tiên là tạo các cặp bản ghi để bạn có thể so sánh. Trong bài tập này, trước hết bạn sẽ tạo tất cả các cặp có thể có, sau đó dùng cột city đã được làm sạch làm biến chặn (blocking variable).

zagat và fodors đã được cung cấp.

Hướng dẫn 1/2

undefined XP
  • 1
    • Nạp gói reclin.
    • Tạo tất cả các cặp bản ghi có thể có giữa hai bộ dữ liệu zagat và fodors.
  • 2
    • Dùng pair blocking để chỉ tạo các cặp có giá trị khớp nhau ở cột city.