1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân cụm bằng R

Connected

Bài tập

Nhiều giá trị K, nhiều mô hình

Mặc dù bộ dữ liệu lineup rõ ràng có giá trị k đã biết, nhưng nhiều khi số cụm tối ưu không được biết trước và phải ước tính.

Trong bài tập này, bạn sẽ tận dụng map_dbl() từ thư viện purrr để chạy k-means với các giá trị k từ 1 đến 10 và trích xuất chỉ số tổng phương sai trong cụm từ mỗi mô hình. Đây là bước đầu để trực quan hóa biểu đồ khuỷu tay (elbow plot).

Hướng dẫn

100 XP
  • Dùng map_dbl() để chạy kmeans() trên dữ liệu lineup với các giá trị k từ 1 đến 10 và trích xuất giá trị tổng phương sai trong cụm từ mỗi mô hình: model$tot.withinss. Lưu vector thu được vào tot_withinss.
  • Tạo data frame mới elbow_df chứa các giá trị k và vector tổng phương sai trong cụm.