1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Tìm từ chung

Giả sử bạn muốn trực quan hóa các từ xuất hiện chung giữa nhiều tài liệu. Bạn có thể làm điều này với commonality.cloud().

Mỗi kho dữ liệu coffee và chardonnay của chúng ta gồm nhiều tweet riêng lẻ. Để xử lý toàn bộ tweet về coffee như một tài liệu đơn lẻ và tương tự cho chardonnay, bạn paste() tất cả tweet trong mỗi kho cùng với tham số collapse = " ". Cách này gộp tất cả tweet (ngăn cách bằng một dấu cách) thành một vector đơn. Sau đó, bạn có thể tạo một vector đơn chứa hai tài liệu đã gộp.

a_single_string <- paste(a_character_vector, collapse = " ")

Khi hoàn tất các bước này, bạn có thể áp dụng cùng cách làm như trước để tạo VCorpus() dựa trên VectorSource từ đối tượng all_tweets.

Hướng dẫn

100 XP
  • Tạo all_coffee bằng cách dùng paste() với collapse = " " trên coffee_tweets$text.
  • Tạo all_chardonnay bằng cách dùng paste() với collapse = " " trên chardonnay_tweets$text.
  • Tạo all_tweets bằng cách dùng c() để kết hợp all_coffee và all_chardonnay. Đặt all_coffee là phần tử đầu tiên.
  • Chuyển đổi all_tweets bằng VectorSource().
  • Tạo all_corpus bằng cách dùng VCorpus() trên all_tweets.