1. Învăţa
  2. /
  3. Courses
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

exercise

Áp dụng các bước tiền xử lý cho một corpus

Gói tm cung cấp hàm tm_map() để áp dụng các hàm làm sạch cho toàn bộ corpus, giúp quy trình làm sạch dễ dàng hơn.

tm_map() nhận hai đối số, một corpus và một hàm làm sạch. Ở đây, removeNumbers() đến từ gói tm.

corpus <- tm_map(corpus, removeNumbers)

Vì lý do tương thích, các hàm từ base R và qdap cần được bọc trong content_transformer().

corpus <- tm_map(corpus, content_transformer(replace_abbreviation))

Bạn có thể sẽ áp dụng cùng các hàm cho nhiều corpus; dùng một hàm tùy chỉnh như hàm hiển thị trong trình soạn thảo sẽ tiết kiệm thời gian (và số dòng mã). clean_corpus() nhận một đối số, corpus, áp dụng một loạt hàm làm sạch theo thứ tự, rồi trả về corpus đã được cập nhật.

Thứ tự các bước làm sạch là rất quan trọng. Ví dụ, nếu bạn removeNumbers() trước rồi mới replace_number(), hàm thứ hai sẽ không còn gì để thay thế! Hãy kiểm tra, kiểm tra lại, và kiểm tra lần nữa kết quả của bạn!

Instrucțiuni 1 / 2

undefined XP
    1
    2
  • Chỉnh hàm tùy chỉnh clean_corpus() trong mã mẫu để áp dụng (theo thứ tự):
    • removePunctuation() của tm.
    • tolower() của base R.
    • Thêm "mug" vào danh sách stop words.
    • stripWhitespace() của tm.