1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Sử dụng liên kết từ

Một cách khác để xem xét mối quan hệ giữa các từ là dùng hàm findAssocs() trong gói tm. Với bất kỳ từ nào, findAssocs() sẽ tính hệ số tương quan của nó với mọi từ khác trong một TDM hoặc DTM. Điểm số dao động từ 0 đến 1. Điểm 1 nghĩa là hai từ luôn xuất hiện cùng nhau trong các văn bản, trong khi điểm tiến gần 0 nghĩa là các thuật ngữ hiếm khi xuất hiện trong cùng một văn bản.

Lưu ý phép tính cho findAssocs() được thực hiện ở cấp độ văn bản. Vì vậy, với mỗi văn bản chứa từ cần tìm, các thuật ngữ khác trong chính các văn bản đó sẽ được xem là có liên kết. Những văn bản không chứa từ tìm kiếm sẽ bị bỏ qua.

Để dùng findAssocs(), truyền vào một TDM hoặc DTM, từ cần tìm, và mức tương quan tối thiểu. Hàm sẽ trả về danh sách tất cả các thuật ngữ khác đạt hoặc vượt ngưỡng tối thiểu.

findAssocs(tdm, "word", 0.25)

Giá trị tương quan tối thiểu thường khá thấp do sự đa dạng từ vựng. Đừng ngạc nhiên nếu 0.10 thể hiện một liên kết cặp thuật ngữ mạnh.

Các tweet về coffee đã được làm sạch và tổ chức thành tweets_tdm cho bài tập này. Bạn sẽ tìm kiếm liên kết từ, xử lý kết quả với list_vect2df() từ qdap và sau đó tạo biểu đồ bằng mã ggplot2 trong ví dụ kịch bản.

Hướng dẫn

100 XP
  • Tạo associations bằng cách dùng findAssocs() trên tweets_tdm để tìm các thuật ngữ liên kết với "venti" đáp ứng ngưỡng tối thiểu 0.2.
  • Xem các thuật ngữ liên kết với "venti" bằng cách in associations ra console.
  • Tạo associations_df bằng cách gọi list_vect2df(), truyền associations, sau đó đặt col2 là "word" và col3 là "score".
  • Chạy mã ggplot2 để tạo biểu đồ chấm cho các giá trị liên kết.