1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với Python

Connected

Bài tập

Ánh xạ lại nhóm danh mục II

Trong bài trước, bạn đã xác định ngưỡng khoảng cách để ánh xạ lại lỗi gõ của các loại ẩm thực 'american', 'asian' và 'italian' trong cột cuisine_type là 80.

Trong bài này, bạn sẽ ghép mọi thứ lại với nhau bằng cách tìm các khớp có điểm tương đồng lớn hơn hoặc bằng 80 bằng hàm extract() của fuzywuzzy.process cho từng loại ẩm thực đúng, rồi thay thế các khớp đó bằng tên chuẩn. Hãy nhớ, khi so sánh một chuỗi với một mảng chuỗi bằng process.extract(), đầu ra là một danh sách các bộ 3 (tuple) với định dạng:

(closest match, similarity score, index of match)

DataFrame restaurants đã có sẵn trong môi trường của bạn, và bạn cũng có một danh sách categories chứa các loại ẩm thực đúng ('italian', 'asian' và 'american').

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Trả về tất cả giá trị duy nhất trong cột cuisine_type của restaurants.