1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Connected

Bài tập

Ví dụ BoW

Trong tổng quan tài liệu, các nhà nghiên cứu đọc và tóm tắt càng nhiều văn bản liên quan đến một chủ đề càng tốt. Đôi khi họ sẽ đọc trùng bài, hoặc đọc bản tóm tắt của những bài họ đã xem. Bạn được cung cấp 20 bài viết về dầu thô dưới dạng một đối tượng R tên là crude_tibble. Thay vì lao ngay vào đọc từng bài, bạn quyết định xem những từ nào được dùng chung giữa các bài này. Để làm điều đó, bạn sẽ bắt đầu bằng cách xây dựng biểu diễn bag-of-words cho văn bản.

Hướng dẫn

100 XP
  • Tạo biểu diễn BoW bằng cách đếm số lần xuất hiện của từ theo từng bài viết, sử dụng cột article_id.
  • Dùng đầu ra để xác định có bao nhiêu tổ hợp bài viết/từ duy nhất đã được tạo.
  • Lọc kết quả để chỉ còn các lượt nhắc đến 'prices'.
  • Có bao nhiêu bài viết có dùng từ prices?