1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học không giám sát với R

Connected

Bài tập

Chọn số cụm

Thuật toán k-means yêu cầu số cụm như một phần của đầu vào. Nếu bạn biết trước số cụm (ví dụ do các ràng buộc kinh doanh), việc thiết lập số cụm sẽ dễ dàng. Tuy nhiên, như bạn đã thấy trong video, nếu bạn không biết trước số cụm và cần xác định nó, bạn sẽ phải chạy thuật toán nhiều lần, mỗi lần với một số cụm khác nhau. Từ đó, bạn có thể quan sát cách một thước đo chất lượng mô hình thay đổi theo số cụm.

Trong bài tập này, bạn sẽ chạy kmeans() nhiều lần để xem chất lượng mô hình thay đổi như thế nào khi số cụm thay đổi. Các biểu đồ hiển thị thông tin này giúp xác định số cụm và thường được gọi là scree plot.

Biểu đồ lý tưởng sẽ có một khuỷu tay (elbow) nơi thước đo chất lượng cải thiện chậm lại khi số cụm tăng. Điều này cho thấy chất lượng mô hình không còn cải thiện đáng kể khi độ phức tạp mô hình (tức là số cụm) tăng lên. Nói cách khác, điểm khuỷu tay biểu thị số cụm vốn có trong dữ liệu.

Hướng dẫn

100 XP

Dữ liệu x vẫn có sẵn trong không gian làm việc của bạn.

  • Xây dựng 15 mô hình kmeans() trên x, mỗi mô hình với một số cụm khác nhau (từ 1 đến 15). Đặt nstart = 20 cho tất cả các lần chạy mô hình và lưu tổng bình phương sai số trong cụm của mỗi mô hình vào phần tử thứ i của wss.
  • Chạy đoạn mã đã cung cấp để tạo scree plot của wss cho cả 15 mô hình.
  • Xem scree plot của bạn. Có bao nhiêu cụm là vốn có trong dữ liệu? Gán k bằng số cụm tại vị trí khuỷu tay.