1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Ma trận khoảng cách và dendrogram

Một cách đơn giản để phân cụm từ là vẽ dendrogram trên ma trận thuật ngữ–tài liệu (term-document matrix). Khi đã có TDM, bạn có thể gọi dist() để tính độ khác biệt giữa từng hàng của ma trận.

Tiếp theo, gọi hclust() để thực hiện phân cụm trên các độ bất tương đồng từ ma trận khoảng cách. Cuối cùng, bạn có thể trực quan hóa khoảng cách tần suất từ bằng một dendrogram và plot(). Trong khai phá văn bản, bạn thường có thể khơi gợi một số insight thú vị hoặc các cụm từ dựa trên dendrogram.

Xét bảng lượng mưa hằng năm mà bạn đã thấy trong video trước. Cleveland và Portland có cùng lượng mưa, nên khoảng cách của chúng là 0. Bạn có thể kỳ vọng hai thành phố này sẽ tạo thành một cụm, còn New Orleans sẽ đứng riêng vì nơi đó mưa nhiều hơn hẳn.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Hướng dẫn

100 XP

Data frame rain đã được nạp sẵn trong không gian làm việc của bạn.

  • Tạo dist_rain bằng cách dùng hàm dist() trên các giá trị ở cột thứ hai của rain.
  • In ma trận dist_rain ra console.
  • Tạo hc bằng cách thực hiện phân cụm với hclust() trên dist_rain.
  • Gọi plot() trên đối tượng hc với labels = rain$city để thêm tên thành phố.