1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Tất tần tật về stop words

Thường có những từ xuất hiện rất nhiều nhưng mang lại ít thông tin. Chúng được gọi là stop words (từ dừng), và bạn có thể muốn loại chúng khỏi phân tích. Một số stop words phổ biến trong tiếng Anh gồm "I", "she'll", "the", v.v. Trong gói tm, có 174 stop words tiếng Anh phổ biến (bạn sẽ in ra trong bài này!)

Khi phân tích, bạn thường sẽ cần bổ sung thêm vào danh sách này. Với ví dụ tweet về cà phê, mọi tweet đều chứa "coffee", nên quan trọng là phải loại cả từ đó bên cạnh các stop words phổ biến. Giữ lại "coffee" không mang thêm insight nào và sẽ khiến từ này bị nhấn quá mạnh trong phân tích tần suất.

Dùng hàm c() cho phép bạn thêm từ mới vào danh sách stop words. Ví dụ, đoạn sau sẽ thêm "word1" và "word2" vào danh sách stop words tiếng Anh mặc định:

all_stops <- c("word1", "word2", stopwords("en"))

Khi đã có danh sách stop words hợp lý, bạn sẽ dùng hàm removeWords() trên văn bản của mình. removeWords() nhận hai đối số: đối tượng text cần áp dụng và danh sách các từ cần loại bỏ.

Hướng dẫn

100 XP
  • Xem lại các stop words chuẩn bằng cách gọi stopwords("en").
  • Loại bỏ stop words "en" khỏi text.
  • Thêm "coffee" và "bean" vào stop words chuẩn, gán vào new_stops.
  • Loại bỏ stop words tùy chỉnh new_stops khỏi text.