1. Learn
  2. /
  3. Courses
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Exercise

Các bigram ảnh hưởng đến word cloud như thế nào?

Bây giờ bạn đã tạo được một DTM dựa trên bigram, bạn có thể xem xét nó và tạo lại word cloud. Phương pháp tokenization mới không chỉ ảnh hưởng đến các ma trận mà còn tác động đến mọi trực quan hóa hoặc mô hình dựa trên các ma trận đó.

Bạn còn nhớ trong word cloud về chardonnay, "Marvin" và "Gaye" là hai thuật ngữ tách rời không? Với bigram, tokenization sẽ lấy tất cả các tổ hợp gồm hai từ. Hãy quan sát điều gì xảy ra với word cloud trong bài tập này.

Bài tập này dùng str_subset từ stringr. Lưu ý rằng các khóa học khác trên DataCamp trình bày chi tiết hơn về regular expression. Nhắc lại: ký tự đặc biệt ^ trong regular expression khớp với vị trí bắt đầu trong các bigram của bài tập.

Instructions

100 XP

Các tweet về chardonnay đã được làm sạch và sắp xếp thành một DTM gọi là bigram_dtm.

  • Tạo bigram_dtm_m bằng cách chuyển bigram_dtm thành ma trận.
  • Tạo đối tượng freq gồm tần suất từ bằng cách áp dụng colSums() lên bigram_dtm_m.
  • Trích xuất vector ký tự các tổ hợp từ bằng names(freq) và gán kết quả cho bi_words.
  • Truyền bi_words vào str_subset() với mẫu khớp "^marvin" để xem tất cả các bigram bắt đầu bằng "marvin".
  • Vẽ một wordcloud() đơn giản bằng cách truyền bi_words, freq và max.words = 15 vào hàm.