1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Chuyển vector thành đối tượng VCorpus (1)

Hãy nhớ rằng bạn đã nạp dữ liệu văn bản vào một vector tên là coffee_tweets ở bài trước. Bước tiếp theo là chuyển vector chứa dữ liệu văn bản này thành một corpus. Như bạn đã học trong video, corpus là một tập hợp tài liệu (documents), và trong hệ sinh thái tm, R còn coi nó như một kiểu dữ liệu.

Có hai kiểu corpus: permanent corpus PCorpus và volatile corpus VCorpus. Về bản chất, khác biệt giữa hai loại nằm ở cách tập tài liệu được lưu trữ trên máy tính. Trong khóa học này, chúng ta sẽ dùng volatile corpus, được giữ trong RAM thay vì lưu xuống đĩa, để sử dụng bộ nhớ hiệu quả hơn.

Để tạo một volatile corpus, R cần diễn giải mỗi phần tử trong vector văn bản coffee_tweets như một tài liệu. Package tm cung cấp các hàm Source để làm việc này! Ở bài tập này, ta sẽ dùng hàm Source VectorSource() vì dữ liệu văn bản của ta nằm trong một vector. Kết quả của hàm này được gọi là một đối tượng Source. Hãy thử thực hiện nhé!

Hướng dẫn

100 XP
  • Tải package tm.
  • Tạo một đối tượng Source từ vector coffee_tweets. Đặt tên đối tượng mới này là coffee_source.