1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với Python

Connected

Bài tập

Ngưỡng cắt (cutoff)

Trong bài tập này, và xuyên suốt chương này, bạn sẽ làm việc với DataFrame restaurants chứa dữ liệu về nhiều nhà hàng. Mục tiêu cuối cùng là xây dựng một hệ gợi ý nhà hàng, nhưng trước hết bạn cần làm sạch dữ liệu.

Phiên bản restaurants này được thu thập từ nhiều nguồn, trong đó cột cuisine_type có rất nhiều lỗi chính tả và lẽ ra chỉ nên chứa ba loại: italian, american và asian. Có quá nhiều danh mục duy nhất nên việc ánh xạ lại thủ công là không khả thi; tốt nhất là dùng độ tương đồng chuỗi.

Trước khi làm điều đó, bạn muốn xác định ngưỡng cắt cho điểm tương đồng bằng cách dùng hàm process.extract() của thefuzz, thông qua việc tìm điểm tương đồng của lỗi chính tả xa nhất (distant) cho mỗi danh mục.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Import process từ thefuzz.
  • Lưu các cuisine_type duy nhất vào unique_types.
  • Tính độ tương đồng của 'asian', 'american', và 'italian' với tất cả các cuisine_type có thể bằng process.extract(), đồng thời trả về mọi kết quả khớp có thể.