1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Regular Expressions nâng cao trong R

Connected

Bài tập

Tìm khớp dựa trên hai điều kiện

Trong bài tập này, bạn sẽ nối 2 bộ dữ liệu có tiêu đề phim tương ứng nhưng có cả lỗi chính tả. Trong bảng đầu tiên movie_titles, có mười bộ phim mà bạn cần khớp với bảng thứ hai movie_db. Tuy nhiên, chúng được trích xuất từ tài liệu quét nên chứa lỗi do phần mềm Nhận diện Ký tự Quang học (OCR).

Cả hai bảng đều có các cột title và year. Hãy dùng chúng để tìm các cặp khớp.

Tạo 2 hàm trợ giúp để khớp các mục giống nhau hoặc tương tự. Một hàm cho tiêu đề phim (dựa trên stringdist()) và một hàm để so sánh năm, dùng abs() (trả về độ lệch).

Hướng dẫn 1/3

undefined XP
  • 1
    • Khi stringdistance giữa left và right nhỏ hơn 3, làm cho hàm is_string_distance_below_three() trả về TRUE.
  • 2
    • Làm cho is_closer_than_three_years() trả về TRUE nếu độ chênh lệch tuyệt đối giữa left và right nhỏ hơn ba.
  • 3
    • Dùng các hàm trợ giúp để join hai data frame theo hai cột "title" và "year".