1. 学ぶ
  2. /
  3. コース
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

演習

Tạo TDM phù hợp để vẽ dendrogram

Giờ bạn đã hiểu các bước để tạo một dendrogram, hãy áp dụng chúng cho văn bản. Nhưng trước tiên, bạn cần giới hạn số lượng từ trong TDM bằng removeSparseTerms() từ tm. Tại sao bạn lại muốn điều chỉnh độ thưa (sparsity) của TDM/DTM?

TDM và DTM thường rất thưa, nghĩa là chủ yếu chứa các số 0. Hãy nhớ rằng 1000 tweet có thể tạo thành một TDM với hơn 3000 từ! Bạn sẽ khó mà diễn giải một dendrogram quá rối rắm như vậy, đặc biệt khi bạn làm với nhiều văn bản hơn.

Trong hầu hết môi trường chuyên nghiệp, một dendrogram tốt dựa trên TDM có khoảng 25 đến 70 từ. Nhiều hơn 70 từ có thể khiến biểu đồ bị rối và khó hiểu. Ngược lại, ít hơn 25 từ thường khiến dendrogram khó vẽ ra các cụm liên quan và hữu ích.

Khi dùng removeSparseTerms(), tham số sparse sẽ điều chỉnh tổng số từ được giữ lại trong TDM. sparse càng gần 1 thì càng giữ lại nhiều từ. Giá trị này biểu thị ngưỡng phần trăm số 0 cho mỗi từ trong TDM.

指示

100 XP

tweets_tdm đã được tạo từ các tweet về chardonnay.

  • In kích thước của tweets_tdm ra console.
  • Tạo tdm1 bằng removeSparseTerms() với sparse = 0.95 trên tweets_tdm.
  • Tạo tdm2 bằng removeSparseTerms() với sparse = 0.975 trên tweets_tdm.
  • In tdm1 ra console để xem còn lại bao nhiêu từ.
  • In tdm2 ra console để xem còn lại bao nhiêu từ.