1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Thuật ngữ xuất hiện thường xuyên với tm

Giờ bạn đã biết cách tạo ma trận thuật ngữ–tài liệu (term-document matrix) và cả ma trận chuyển vị của nó, ma trận tài liệu–thuật ngữ (document-term matrix), chúng ta sẽ dùng nó làm nền tảng cho một số phân tích. Để phân tích, bạn cần chuyển nó thành một ma trận đơn giản, như bạn đã làm ở chương 1 với as.matrix().

Gọi rowSums() trên ma trận vừa tạo sẽ cộng gộp tất cả các thuật ngữ được dùng trong một đoạn văn bản. Khi đã có rowSums(), bạn có thể sort() với decreasing = TRUE để tập trung vào các thuật ngữ phổ biến nhất.

Cuối cùng, bạn có thể vẽ barplot() cho 5 thuật ngữ đứng đầu của term_frequency với đoạn mã sau.

barplot(term_frequency[1:5], col = "#C0DE25")

Tất nhiên, bạn có thể học các khóa ggplot2 của chúng tôi để tùy biến biểu đồ sâu hơn nữa… :)

Hướng dẫn

100 XP
  • Tạo coffee_m dưới dạng ma trận từ ma trận thuật ngữ–tài liệu coffee_tdm của chương trước.
  • Tạo term_frequency bằng cách dùng hàm rowSums() trên coffee_m.
  • Sắp xếp term_frequency theo thứ tự giảm dần và lưu kết quả vào lại term_frequency.
  • Dùng kỹ thuật chọn phần tử với một cặp ngoặc vuông, tức chỉ dùng một dấu [, để in ra 10 thuật ngữ đứng đầu từ term_frequency.
  • Vẽ biểu đồ cột cho 10 thuật ngữ đứng đầu.