1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Regular Expressions nâng cao trong R

Connected

Bài tập

Thử các phương pháp khác nhau

Tuyệt vời, bạn đã biết nhiều phương pháp tính khoảng cách chuỗi. Việc chọn phương pháp phụ thuộc vào nhiều yếu tố, nên tốt nhất là bạn nên thử qua các phương pháp và tham số khác nhau để hiểu chúng rõ hơn. Trong bài này bạn sẽ dùng từ khóa tìm kiếm "Marya Carey" – phiên bản gõ sai của tên "Mariah Carey". Với các phương pháp khoảng cách chuỗi khác nhau, cái tên gõ sai giống với tên thật đến mức nào?

Mục tiêu là tìm các tham số cho khoảng cách nhỏ giữa hai tên nói trên, đồng thời vẫn giữ khoảng cách lớn với các tên khác trong danh sách – tức những người không phải là đối tượng bạn đang tìm.

Hướng dẫn

100 XP
  • Tạo các q-gram với độ dài chuỗi con là 1 và 2.
  • Tính khoảng cách chuỗi giữa search và names bằng phương pháp q-gram với độ dài chuỗi con 1 và 2.
  • Tính khoảng cách chuỗi giữa search và names bằng phương pháp "osa".