1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Liên kết từ

Đúng như dự đoán, bạn thấy các chủ đề tương tự xuất hiện xuyên suốt cây phân cấp (dendrogram). Quay lại các nhận xét tích cực, bạn quyết định xem xét những cụm từ nổi bật đã xuất hiện trong word cloud. Bạn hy vọng tìm được các thuật ngữ liên quan bằng hàm findAssocs() từ tm. Giờ đây khi đã biết về giờ làm kéo dài và thiếu cân bằng công việc - cuộc sống, bạn muốn kiểm tra xem có điều gì bất ngờ không.

Hướng dẫn

100 XP

Kho ngữ liệu amzn_pros_corp đã được làm sạch bằng các hàm tùy chỉnh như trước.

  • Tạo TDM tên amzn_p_tdm từ amzn_pros_corp với control = list(tokenize = tokenizer).
  • Tạo amzn_p_m bằng cách chuyển amzn_p_tdm sang matrix.
  • Tạo amzn_p_freq bằng cách áp dụng rowSums() lên amzn_p_m.
  • Tạo term_frequency bằng cách dùng sort() trên amzn_p_freq với tham số decreasing = TRUE.
  • Xem 5 bigram đầu tiên bằng term_frequency[1:5].
  • Bạn có thể bất ngờ khi thấy "fast paced" là một thuật ngữ hàng đầu vì nó có thể mang nghĩa tiêu cực liên quan đến "long hours". Hãy xem các thuật ngữ liên quan nhất đến "fast paced". Dùng findAssocs() trên amzn_p_tdm để kiểm tra "fast paced" với ngưỡng 0.2.