1. Learn
  2. /
  3. Courses
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Exercise

Thuật ngữ xuất hiện thường xuyên với qdap

Nếu bạn chấp nhận hy sinh một chút quyền kiểm soát đối với các bước tiền xử lý cụ thể, thì cách nhanh để lấy các thuật ngữ xuất hiện thường xuyên là dùng freq_terms() từ qdap.

Hàm này nhận một biến văn bản, trong trường hợp của chúng ta là vector tweets$text. Bạn có thể chỉ định số lượng thuật ngữ hàng đầu cần hiển thị với đối số top, một vector các từ dừng cần loại bỏ với đối số stopwords, và độ dài ký tự tối thiểu của một từ để được đưa vào với đối số at.least. qdap có danh sách từ dừng riêng, khác với trong tm. Bài tập này sẽ hướng dẫn bạn cách dùng mỗi loại và so sánh kết quả.

Vẽ biểu đồ cơ bản cho kết quả thì rất dễ. Chỉ cần gọi plot() trên đối tượng trả về từ freq_terms().

Instructions 1/2

undefined XP
  • 1
    • Tạo frequency bằng cách dùng hàm freq_terms() trên tweets$text. Bao gồm các đối số để thực hiện những yêu cầu sau:
      • Giới hạn 10 thuật ngữ hàng đầu.
      • Mỗi thuật ngữ có ít nhất ba chữ cái.
      • Dùng "Top200Words" để xác định từ dừng.
    • Vẽ plot() cho đối tượng frequency. So sánh với biểu đồ bạn đã tạo ở bài tập trước.
  • 2
    • Tiếp tục tạo frequency bằng hàm freq_terms() trên tweets$text. Bao gồm các đối số sau:
      • Giới hạn 10 thuật ngữ hàng đầu.
      • Mỗi thuật ngữ có ít nhất ba chữ cái.
      • Lần này dùng stopwords("english") để xác định từ dừng.
    • Vẽ plot() cho frequency. So sánh với biểu đồ của frequency. Một số từ có thay đổi dựa trên tiêu chí từ dừng không?