1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích dữ liệu mạng xã hội bằng R

Connected

Bài tập

Loại bỏ stop words và khoảng trắng thừa

Một kho văn bản (corpus) thường chứa nhiều từ phổ biến như "a", "an", "the", "of" và "but". Trong xử lý ngôn ngữ tự nhiên, đây được gọi là stop words.

Stop words thường được loại bỏ trong quá trình xử lý văn bản để bạn có thể tập trung vào các từ quan trọng hơn trong corpus nhằm rút ra hiểu biết.

Ngoài ra, các khoảng trắng thừa sinh ra khi loại bỏ ký tự đặc biệt, dấu câu, chữ số và stop words cũng cần được xóa khỏi corpus.

Corpus mà bạn đã tạo ở bài trước đã được nạp sẵn với tên twt_corpus_lwr.

Thư viện tm đã được nạp sẵn cho bài tập này.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Loại bỏ các stop words tiếng Anh khỏi corpus twt_corpus_lwr bằng hàm tm_map().