1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học không giám sát với R

Connected

Bài tập

So sánh kmeans() và hclust()

Khi so sánh k-means và phân cụm phân cấp (hierarchical clustering), bạn sẽ thấy hai phương pháp cho ra các cụm khác nhau. Lý do là hai thuật toán đưa ra những giả định khác nhau về cách dữ liệu được tạo ra. Trong một khóa học nâng cao hơn, chúng ta có thể chọn dùng mô hình này thay vì mô hình kia dựa trên chất lượng các giả định của mô hình, nhưng hiện tại, chỉ cần nhận thấy rằng chúng khác nhau là đủ.

Bài tập này sẽ giúp bạn so sánh kết quả từ hai mô hình trên bộ dữ liệu pokemon để xem chúng khác nhau như thế nào.

Hướng dẫn

100 XP

Kết quả chạy k-means trên dữ liệu pokemon (với 3 cụm) đã được lưu trong km.pokemon. Mô hình phân cụm phân cấp bạn đã tạo ở bài trước vẫn còn dưới tên hclust.pokemon.

  • Dùng cutree() trên hclust.pokemon để gán cụm cho từng quan sát. Giả sử có ba cụm và gán kết quả vào một vector tên cut.pokemon.
  • Dùng table() để so sánh tư cách thành viên cụm giữa hai phương pháp phân cụm. Nhớ rằng các thành phần khác nhau của đối tượng mô hình k-means có thể được truy cập bằng toán tử $.