1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Connected

Bài tập

Một ví dụ thất bại trong phân tích văn bản

Ở phần đầu, bạn đã thảo luận về sức mạnh của việc loại bỏ stop word trước khi tiến hành phân tích văn bản. Trong chương gần đây nhất, bạn đã ôn lại cách dùng cosine similarity để xác định các văn bản tương tự nhau.

Trong bài tập này, bạn sẽ khám phá khả năng rất thực tế là thất bại khi áp dụng phân tích văn bản không đúng cách. Bạn sẽ tính cosine similarity cho các chương trong cuốn Animal Farm mà không loại bỏ stop word.

Hướng dẫn

100 XP
  • Xem lại đoạn mã đã cung cấp để tạo số đếm từ. Phần này đã được làm sẵn cho bạn.
  • Dùng hàm pairwise_similarity() từ widyr để tính cosine similarity cho từng chương trong cột chapter.
  • Sắp xếp kết quả với các giá trị similarity cao nhất ở trên cùng.
  • Tính giá trị trung bình mean của các giá trị similarity.