1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Đám mây từ đơn giản

Đến lúc này, bạn đã uống quá nhiều cà phê. Thêm vào đó, việc thấy các từ đứng đầu như "shop", "morning" và "drinking" cùng nhiều từ khác cũng không mang lại nhiều insight.

Để ăn mừng khi đã đi được đến đây, hãy thử xử lý thêm một lô 1000 tweet khác. Tạm thời, bạn chưa biết chúng có điểm chung gì, nhưng hãy xem liệu bạn có thể đoán ra bằng một đám mây từ không. Các giá trị tần suất thuật ngữ của các tweet đã được nạp sẵn trong workspace của bạn.

Đám mây từ là một cách trực quan hóa các thuật ngữ. Trong đám mây từ, kích thước thường được tỷ lệ theo tần suất, và ở một số trường hợp, màu sắc có thể thể hiện một thước đo khác. Hiện tại, ta sẽ giữ mọi thứ đơn giản: kích thước gắn với tần suất của từng từ, và ta chỉ chọn một màu duy nhất.

Như bạn đã thấy trong video, hàm wordcloud() hoạt động như sau:

wordcloud(words, frequencies, max.words = 500, colors = "blue")

Phân tích khai phá văn bản thường bao gồm các đám mây từ đơn giản. Thực tế, chúng có lẽ bị lạm dụng, nhưng vẫn hữu ích để nhanh chóng hiểu một tập văn bản!

term_frequency đã được nạp vào workspace của bạn.

Hướng dẫn

100 XP
  • Nạp package wordcloud.
  • In ra 10 phần tử đầu tiên trong term_frequency.
  • Trích xuất các thuật ngữ bằng names() trên term_frequency. Đặt tên vector chuỗi là terms_vec.
  • Tạo một wordcloud() dùng terms_vec làm danh sách từ và term_frequency làm giá trị. Thêm các tham số max.words = 50 và colors = "red".