1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Đám mây thẻ phân cực

Commonality cloud cho thấy các từ được dùng chung giữa các tài liệu. Một điều thú vị mà chúng không thể hiện được là trong số các từ đó, từ nào xuất hiện thường xuyên hơn ở một tài liệu so với tài liệu khác. Để làm việc này, bạn cần một biểu đồ kim tự tháp; có thể tạo bằng pyramid.plot() từ gói plotrix.

Trước hết, cần thao tác dữ liệu để đưa về dạng phù hợp. Cách dễ nhất là chuyển sang data frame và dùng dplyr. Với một ma trận đếm từ, được tạo bởi as.matrix(tdm), bạn cần thu được một data frame với ba cột:

  • Các từ có trong mỗi tài liệu.
  • Số lần xuất hiện của các từ đó trong tài liệu 1.
  • Số lần xuất hiện của các từ đó trong tài liệu 2.

Sau đó gọi pyramid.plot() như sau

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

Có một số tham số bổ sung để cải thiện mặt hiển thị của biểu đồ.

Giờ bạn sẽ khám phá các từ phổ biến trong tweet về chardonnay nhưng hiếm trong tweet về coffee. all_dtm_m đã được tạo sẵn cho bạn.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Ép all_tdm_m thành một tibble. Đặt tên các rownames vào một cột tên "word".
  • Lọc tất cả biến nếu chúng lớn hơn 0, dùng cú pháp ~. > 0.
  • Thêm một cột tên difference, bằng số đếm ở cột chardonnay trừ số đếm ở cột coffee.
  • Dùng slice_max với difference để lấy top n = 25.
  • Sắp xếp các hàng theo thứ tự giảm dần của difference bằng desc().