1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích dữ liệu mạng xã hội bằng R

Connected

Bài tập

Loại bỏ stop word tùy chỉnh

Các thuật ngữ phổ biến trong một tập văn bản có thể được trực quan hóa bằng biểu đồ cột hoặc word cloud.

Tuy nhiên, trước khi dùng các công cụ trực quan hóa, điều quan trọng là cần loại bỏ các stop word tùy chỉnh có trong corpus.

Trong bài tập này, bạn sẽ kiểm tra tần suất thuật ngữ và loại bỏ các stop word tùy chỉnh khỏi corpus văn bản mà bạn đã tạo cho "telemedicine".

Corpus văn bản đã được nạp sẵn dưới tên twt_corpus.

Các thư viện qdap và tm đã được nạp sẵn cho bài tập này.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Trích xuất tần suất thuật ngữ cho top 60 từ từ twt_corpus.