1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Ghép lại tất cả: dendrogram dựa trên văn bản

Đến lúc vận dụng kỹ năng của bạn để tạo dendrogram dựa trên văn bản đầu tiên. Hãy nhớ rằng, dendrogram giúp rút gọn thông tin để bạn hiểu dữ liệu. Điều này giống như cách một giá trị trung bình cho bạn biết điều gì đó, nhưng không phải tất cả, về một quần thể. Cả hai đều có thể gây hiểu nhầm. Với dữ liệu văn bản, thường sẽ có nhiều cụm vô nghĩa, nhưng cũng có thể xuất hiện một số cụm giá trị.

Một đặc thù của các đối tượng TDM và DTM là bạn phải chuyển đổi chúng thành ma trận trước (bằng as.matrix()), rồi mới sử dụng với hàm dist().

Với các tweet về chardonnay, có thể bạn đã ngạc nhiên khi thấy huyền thoại nhạc soul Marvin Gaye xuất hiện trong đám mây từ. Hãy xem dendrogram có nắm bắt được điều tương tự không.

Hướng dẫn

100 XP
  • Tạo tweets_tdm2 bằng cách áp dụng removeSparseTerms() lên tweets_tdm. Dùng sparse = 0.975.
  • Tạo tdm_m bằng cách dùng as.matrix() trên tweets_tdm2 để chuyển nó sang dạng ma trận.
  • Tạo tweets_dist chứa các khoảng cách của tdm_m bằng hàm dist().
  • Tạo một đối tượng phân cụm phân cấp tên là hc bằng hclust() trên tweets_dist.
  • Vẽ một dendrogram với plot() và hc.