1. 学习
  2. /
  3. 课程
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

练习

Các hàm làm sạch phổ biến từ tm

Giờ bạn đã biết hai cách tạo một corpus, hãy tập trung vào việc làm sạch, hay tiền xử lý, văn bản. Trước hết, bạn sẽ làm sạch một đoạn văn bản nhỏ; sau đó chuyển sang các corpus lớn hơn.

Trong khai phá văn bản theo phương pháp bag-of-words, việc làm sạch giúp gom nhóm các thuật ngữ. Ví dụ, có thể hợp lý khi coi "miner", "mining" và "mine" là cùng một thuật ngữ. Các bước tiền xử lý cụ thể sẽ khác nhau tùy dự án. Chẳng hạn, từ ngữ trong tweet rất khác so với trong tài liệu pháp lý, nên quy trình làm sạch cũng có thể rất khác.

Một số hàm tiền xử lý phổ biến gồm:

  • tolower(): Chuyển tất cả ký tự thành chữ thường
  • removePunctuation(): Xóa mọi dấu câu
  • removeNumbers(): Xóa chữ số
  • stripWhitespace(): Xóa khoảng trắng thừa

tolower() thuộc base R, còn ba hàm còn lại đến từ gói tm. Trong phần tiếp theo, chúng tôi sẽ nạp tm và qdap cho bạn khi cần. Mỗi khi giới thiệu một gói mới, lần đầu tiên chúng tôi sẽ yêu cầu bạn tự nạp gói đó.

Biến text, chứa một câu, đã có sẵn trong script.

说明

100 XP

Áp dụng từng hàm sau lên text và chỉ in kết quả ra console:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`