1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học không giám sát với R

Connected

Bài tập

Phân cụm trên kết quả PCA

Trong bài tập cuối cùng này, bạn sẽ kết hợp một số bước đã dùng trước đó và, qua đó, trải nghiệm phần nào tính sáng tạo vốn có trong unsupervised learning.

Hãy nhớ từ các bài tập trước rằng mô hình PCA cần ít đặc trưng hơn đáng kể để mô tả 80% và 95% độ biến thiên của dữ liệu. Bên cạnh việc chuẩn hóa dữ liệu và có khả năng tránh overfitting, PCA còn khử tương quan giữa các biến, đôi khi giúp cải thiện hiệu suất của các kỹ thuật mô hình hóa khác.

Hãy xem PCA có cải thiện hay làm giảm hiệu suất của phân cụm phân cấp (hierarchical clustering).

Hướng dẫn

100 XP

wisc.pr, diagnosis, wisc.hclust.clusters và wisc.km vẫn còn trong workspace của bạn.

  • Sử dụng số lượng thành phần chính tối thiểu cần thiết để mô tả ít nhất 90% độ biến thiên của dữ liệu, tạo một mô hình phân cụm phân cấp với complete linkage. Gán kết quả cho wisc.pr.hclust.
  • Cắt mô hình phân cụm phân cấp này thành 4 cụm và gán kết quả cho wisc.pr.hclust.clusters.
  • Dùng table() để so sánh kết quả từ mô hình phân cụm phân cấp mới với chẩn đoán thực tế. Mô hình bốn cụm mới tạo phân tách hai chẩn đoán tốt đến mức nào?
  • Các mô hình k-means và phân cụm phân cấp bạn đã tạo ở các bài trước phân tách chẩn đoán tốt đến mức nào? Một lần nữa, dùng hàm table() để so sánh đầu ra của từng mô hình với vector chứa chẩn đoán thực tế.