1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Trực quan hóa các từ không giống nhau

Giả sử bạn muốn trực quan hóa các từ không trùng nhau. Bạn cũng có thể dùng comparison.cloud(), và các bước khá giống nhau, chỉ có một khác biệt chính.

Tương tự khi bạn tìm các từ chung, bạn bắt đầu bằng cách hợp nhất các tweet thành các corpora riêng biệt và kết hợp chúng vào một đối tượng VCorpus(). Tiếp theo áp dụng hàm clean_corpus() và tổ chức dữ liệu thành một TermDocumentMatrix.

Để theo dõi từ nào thuộc về coffee và từ nào thuộc về chardonnay, bạn có thể đặt tên cột của TDM như sau:

colnames(all_tdm) <- c("chardonnay", "coffee")

Cuối cùng, chuyển đối tượng sang ma trận bằng as.matrix() để dùng trong comparison.cloud(). Với mỗi corpus riêng biệt được truyền vào comparison.cloud(), bạn có thể chỉ định màu, như colors = c("red", "yellow", "green"), để các phần dễ phân biệt.

Hướng dẫn

100 XP

all_corpus đã được nạp sẵn trong không gian làm việc của bạn.

  • Tạo all_clean bằng cách áp dụng hàm clean_corpus đã định nghĩa trước cho all_corpus.
  • Tạo all_tdm, một TermDocumentMatrix, từ all_clean.
  • Dùng colnames() để đổi tên từng corpus trong all_tdm. Đặt tên cột thứ nhất là "coffee" và cột thứ hai là "chardonnay".
  • Tạo all_m bằng cách chuyển all_tdm sang dạng ma trận.
  • Tạo một comparison.cloud() dùng all_m, với colors = c("orange", "blue") và max.words = 50.