1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Exercises

Giới thiệu về word stemming và stem completion

Một bước tiền xử lý hữu ích khác là word-stemming và stem completion. Word stemming rút gọn các từ về cùng một gốc để thống nhất giữa các tài liệu. Ví dụ, gốc của "computational", "computers" và "computation" là "comput". Nhưng vì "comput" không phải là một từ có nghĩa, bạn muốn khôi phục lại sao cho "computational", "computers" và "computation" đều trỏ về một từ quen thuộc, như "computer". Bước khôi phục này gọi là stem completion.

Gói tm cung cấp hàm stemDocument() để đưa từ về gốc. Hàm này hoặc nhận một vector ký tự và trả về một vector ký tự, hoặc nhận một PlainTextDocument và trả về một PlainTextDocument.

Ví dụ,

stemDocument(c("computational", "computers", "computation"))

trả về "comput" "comput" "comput".

Bạn sẽ dùng stemCompletion() để khôi phục các gốc từ này thành một thuật ngữ đã biết. stemCompletion() nhận một vector ký tự và một completion dictionary. Completion dictionary có thể là một vector ký tự hoặc một đối tượng Corpus. Dù theo cách nào, completion dictionary cho ví dụ của chúng ta cần chứa từ "computer" để mọi trường hợp của "comput" có thể được khôi phục.

คำแนะนำ

100 XP
  • Tạo một vector tên complicate gồm các từ "complicated", "complication" và "complicatedly" theo đúng thứ tự đó.
  • Lưu phiên bản đã stem của complicate vào đối tượng stem_doc.
  • Tạo comp_dict chứa một từ, "complicate".
  • Tạo complete_text bằng cách áp dụng stemCompletion() lên stem_doc. Hoàn nguyên các từ dựa trên comp_dict làm tập văn bản tham chiếu.
  • In complete_text ra console.