1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Biến vector thành đối tượng VCorpus (2)

Giờ bạn đã chuyển vector thành một đối tượng Source, chúng ta sẽ truyền nó vào hàm khác của tm, VCorpus(), để tạo một corpus volatile. Khá đơn giản, đúng không?

Đối tượng VCorpus là một list lồng nhau (list của các list). Ở mỗi vị trí trong VCorpus, có một đối tượng PlainTextDocument, là một list chứa dữ liệu văn bản thực sự (content) và một số siêu dữ liệu tương ứng (meta). Bạn có thể hình dung đối tượng VCorpus để dễ hình dung tổng thể.

Để xem một đối tượng tài liệu đơn lẻ (tài liệu thứ 10), bạn lấy phần tử bằng ngoặc vuông kép.

coffee_corpus[[10]]

Để xem phần văn bản thực sự, bạn đánh chỉ mục list hai lần. Để truy cập siêu dữ liệu của tài liệu, như timestamp, hãy đổi [1] thành [2]. Cách khác để xem văn bản thuần là dùng hàm content(), hàm này không cần cặp ngoặc vuông thứ hai.

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

Hướng dẫn

100 XP
  • Gọi hàm VCorpus() trên đối tượng coffee_source để tạo coffee_corpus.
  • Xác minh coffee_corpus là đối tượng VCorpus bằng cách in nó ra console.
  • In phần tử thứ 15 của coffee_corpus ra console để kiểm tra đó là PlainTextDocument chứa nội dung và siêu dữ liệu của tweet thứ 15. Dùng truy xuất bằng ngoặc vuông kép.
  • In nội dung của tweet thứ 15 trong coffee_corpus. Dùng ngoặc vuông kép để chọn đúng tweet, sau đó dùng ngoặc vuông đơn để trích xuất nội dung của tweet đó.
  • In content() của tweet thứ 10 trong coffee_corpus