1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Tạo ma trận tài liệu–thuật ngữ

Hy vọng bạn vẫn còn tỉnh táo sau loạt thao tác khai phá văn bản cơ bản này! Phòng khi buồn ngủ, hãy quay lại với cà phê và ghé Starbucks trong lúc xây dựng một ma trận tài liệu–thuật ngữ từ các tweet về cà phê.

Bắt đầu với tệp coffee.csv, chúng ta đã áp dụng các bước biến đổi phổ biến để tạo ra một corpus sạch có tên clean_corp.

Ma trận tài liệu–thuật ngữ được dùng khi bạn muốn mỗi tài liệu là một hàng. Cách này hữu ích khi bạn so sánh tác giả theo từng hàng, hoặc dữ liệu sắp theo trình tự thời gian và bạn muốn giữ nguyên chuỗi thời gian. Gói tm sử dụng lớp "simple triplet matrix". Tuy nhiên, thường sẽ dễ thao tác và kiểm tra đối tượng hơn nếu bạn chuyển lại kiểu của DTM bằng as.matrix()

Hướng dẫn

100 XP
  • Tạo coffee_dtm bằng cách áp dụng DocumentTermMatrix() lên clean_corp.
  • Tạo coffee_m, phiên bản ma trận của coffee_dtm, bằng as.matrix().
  • In kích thước của coffee_m ra console bằng hàm dim(). Lưu ý số hàng và cột.
  • In tập con của coffee_m gồm các tài liệu (hàng) từ 25 đến 35 và các thuật ngữ (cột) "star" và "starbucks".