1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Ôn nhanh các bài đánh giá về Google

Bạn quyết định tạo một comparison.cloud() cho các đánh giá tích cực và tiêu cực về Google để so sánh với Amazon. Cách này giúp bạn nhanh chóng nắm các thuật ngữ nổi bật mà không cần tốn quá nhiều thời gian như khi xem xét các đánh giá về Amazon ở những bài trước.

Chúng tôi đã cung cấp cho bạn một corpus all_goog_corpus, gồm 500 đánh giá tích cực và 500 đánh giá tiêu cực cho Google. Ở đây, bạn sẽ làm sạch corpus và tạo một comparison cloud để so sánh các từ phổ biến trong cả phần ưu và nhược.

Hướng dẫn

100 XP

Đối tượng all_goog_corpus gồm các đánh giá ưu và nhược về Google đã được nạp vào workspace của bạn.

  • Tạo all_goog_corp bằng cách làm sạch all_goog_corpus với hàm tm_clean() đã định nghĩa sẵn.
  • Tạo all_tdm bằng cách chuyển all_goog_corp thành ma trận thuật ngữ-tài liệu (term-document matrix).
  • Tạo all_m bằng cách chuyển all_tdm thành ma trận.
  • Tạo một comparison.cloud() từ all_m. Đặt max.words là 100. Tham số colors đã được chỉ định sẵn cho bạn.