1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Ghi nhận metadata trong tm

Tùy vào mục tiêu, bạn có thể muốn giữ lại metadata về tài liệu khi tạo corpus.

Để ghi nhận metadata ở cấp độ tài liệu, tên và thứ tự các cột phải là:

  1. doc_id - chuỗi định danh duy nhất cho mỗi tài liệu
  2. text - phần văn bản cần phân tích
  3. ... - mọi cột khác sẽ được phân loại tự động thành metadata.

Đôi khi bạn sẽ cần đổi tên cột để khớp với yêu cầu của DataframeSource(). Hàm names() rất hữu ích cho việc này.

tweets đã có trong không gian làm việc của bạn dưới dạng data frame với các cột "num", "text", "screenName" và "created".

Hướng dẫn

100 XP
  • Đổi tên cột đầu tiên của tweets thành "doc_id".
  • Thiết lập lược đồ tài liệu với DataframeSource() trên data frame tweets nhỏ hơn.
  • Biến bộ sưu tập tài liệu thành một corpus volatile và lồng trong hàm tùy chỉnh clean_corpus().
  • Áp dụng content() lên tweet đầu tiên với dấu ngoặc kép như text_corpus[[1]] để xem văn bản thuần đã được làm sạch.
  • Xác nhận rằng toàn bộ metadata đã được ghi nhận bằng hàm meta() trên tài liệu đầu tiên với dấu ngoặc đơn.

Hãy nhớ: khi truy cập một phần của corpus, dấu ngoặc kép hoặc đơn tạo ra khác biệt! Trong bài này, bạn sẽ dùng ngoặc kép với content() và ngoặc đơn với meta().