1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Tạo ma trận thuật-ngữ–tài-liệu (term-document matrix)

Bạn gần hoàn tất phần nền tảng không mấy hào hứng trước khi bước sang các trực quan hóa và phân tích thú vị dựa trên những khái niệm bạn đã học!

Trong bài này, bạn sẽ thực hiện quy trình tương tự nhưng lấy chuyển vị của document-term matrix. Ở đây, term-document matrix có các thuật ngữ ở cột đầu tiên và các tài liệu trải ngang phía trên làm tên các cột riêng lẻ.

TDM thường là ma trận dùng cho phân tích ngôn ngữ. Lý do là bạn thường có nhiều thuật ngữ hơn tác giả hoặc tài liệu, và mọi thứ nói chung dễ xử lý hơn khi số hàng nhiều hơn số cột. Cách đơn giản để bắt đầu phân tích là chuyển ma trận về dạng ma trận thường bằng cách dùng as.matrix() trên TDM.

Hướng dẫn

100 XP
  • Tạo coffee_tdm bằng cách áp dụng TermDocumentMatrix() lên clean_corp.
  • Tạo coffee_m bằng cách chuyển coffee_tdm thành ma trận bằng as.matrix().
  • In kích thước của coffee_m ra console. Lưu ý số hàng và số cột.
  • In phần tập con của coffee_m gồm các thuật ngữ (hàng) "star" và "starbucks" và các tài liệu (cột) từ 25 đến 35.