1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học không giám sát với R

Connected

Bài tập

Chọn số lượng cụm

Trong bài tập này, bạn sẽ so sánh đầu ra từ mô hình phân cụm phân cấp của mình với chẩn đoán thực tế. Thông thường khi thực hiện học unsupervised như thế này, sẽ không có biến đích. Tuy nhiên, với bộ dữ liệu này thì có, nên ta có thể dùng nó để kiểm tra hiệu quả của mô hình phân cụm.

Khi thực hiện học supervised — tức là bạn cố gắng dự đoán một biến đích quan tâm và biến đó có sẵn trong dữ liệu gốc — việc dùng phân cụm để tạo đặc trưng mới có thể cải thiện hoặc không cải thiện hiệu năng của mô hình cuối. Bài tập này sẽ giúp bạn xác định liệu trong trường hợp này, phân cụm phân cấp có cung cấp một đặc trưng mới đầy hứa hẹn hay không.

Hướng dẫn

100 XP

wisc.data, diagnosis, wisc.pr, pve, và wisc.hclust đã có sẵn trong không gian làm việc của bạn.

  • Dùng cutree() để cắt cây sao cho có 4 cụm. Gán đầu ra vào biến wisc.hclust.clusters.
  • Dùng hàm table() để so sánh thành viên cụm với chẩn đoán thực tế.