1. Learn
  2. /
  3. Courses
  4. /
  5. Làm sạch dữ liệu với Python

Connected

Exercise

Cặp nhà hàng

Trong bài học trước, bạn đã làm sạch bộ dữ liệu restaurants để sẵn sàng xây dựng hệ thống gợi ý nhà hàng. Bạn có một DataFrame mới tên là restaurants_new với các nhà hàng mới để huấn luyện mô hình, được thu thập từ một nguồn dữ liệu khác.

Bạn đã làm sạch các cột cuisine_type và city bằng các kỹ thuật trong khóa học. Tuy nhiên, bạn thấy có các bản trùng lặp do lỗi chính tả trong tên nhà hàng, cần thực hiện liên kết bản ghi (record linkage) thay vì join với restaurants.

Trong bài tập này, bạn sẽ thực hiện bước đầu tiên của liên kết bản ghi và tạo các cặp hàng có thể khớp giữa restaurants và restaurants_new. Cả hai DataFrame, pandas và recordlinkage đều đã có sẵn trong môi trường của bạn.

Instructions 1/2

undefined XP
    1
    2
  • Khởi tạo một đối tượng lập chỉ mục bằng hàm Index() từ recordlinkage.
  • Chặn (block) việc bắt cặp theo cuisine_type bằng phương thức .block() của indexer.
  • Tạo các cặp bằng cách lập chỉ mục restaurants và restaurants_new theo đúng thứ tự đó.