1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Regular Expressions nâng cao trong R

Connected

Bài tập

Thực hiện join theo khoảng cách chuỗi

Kết hợp hai nguồn dữ liệu khác nhau là một tác vụ rất phổ biến trong phân tích dữ liệu. Khi có thể, bạn nên dùng các giá trị nhận diện rõ ràng như địa chỉ email để join hai bảng. Nhưng nếu người dùng chỉ nhập tên và bạn phải tra trong cơ sở dữ liệu người dùng thì sao? Khó ở chỗ: Mọi người có thể viết tắt tên hoặc họ, gõ sai ký tự, hoặc bỏ qua một phần nào đó.

Trong phạm vi bài này có hai data frame: user_input và database. Cái đầu chứa dữ liệu người dùng nhập có lỗi, cái sau chứa tên đúng, nhưng cả hai nguồn đều có cùng 100 tên. Bạn có thể khớp được bao nhiêu trong số đó bằng join theo khoảng cách chuỗi? Nhân tiện: Không có method khoảng cách nào được chỉ định, nên mặc định sẽ dùng khoảng cách Optimal String Alignment "osa".

Hướng dẫn

100 XP
  • Join user_input và database với khoảng cách chuỗi tối đa max_dist sao cho chính xác tám mươi tên được khớp thành công. Hãy thử nghiệm cho đến khi bạn tìm ra khoảng cách tối đa phù hợp.
  • Dùng bảng mới tạo joined để in ra một câu báo cáo thân thiện, dễ đọc.