1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Luyện tập câu hỏi phỏng vấn Machine Learning bằng Python

Connected

Bài tập

Phân cụm phân cấp kết tụ (Hierarchical agglomerative clustering)

Ở bài trước, bạn đã thấy cách số lượng cụm trong khi thực hiện K-means có thể ảnh hưởng đến kết quả, giúp bạn tự tin thảo luận về K-means trong phỏng vấn Machine Learning. Tuy nhiên, còn một mô hình phân cụm khác là phân cụm phân cấp kết tụ (hierarchical agglomerative clustering). Trong Python, bạn có thể xác định số cụm tối ưu cho kỹ thuật này cả trực quan lẫn toán học. Bạn sẽ dùng các mô-đun scipy và sklearn cho cả hai cách.

Hãy nhớ rằng việc chọn số cụm tối ưu từ dendrogram phụ thuộc vào cả tiêu chí liên kết (linkage) và ngưỡng khoảng cách. Ở đây, bạn sẽ tạo một dendrogram với ma trận X từ diabetes, rồi vẽ một đường tưởng tượng tại độ dài 1.50 và đếm số đường thẳng đứng bị cắt qua để biểu diễn số cụm tối ưu cho thuật toán phân cụm phân cấp của bạn về sau.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Import các gói cần thiết để tạo dendrogram và thực hiện phân cụm phân cấp kết tụ.