1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Luyện tập câu hỏi phỏng vấn Machine Learning bằng Python

Connected

Bài tập

Phương pháp Silhouette

Trong bài học trước, bạn đã thấy số lượng cụm khác nhau ảnh hưởng thế nào đến hiệu suất của thuật toán K-Means. Điều này đặc biệt quan trọng trong bối cảnh phỏng vấn, vì số cụm tối ưu sẽ cho kết quả tốt nhất.

Trong bài tập này, bạn sẽ dùng hàm silhouette_score() từ sklearn.metrics trên các mô hình K-Means chạy với DataFrame diabetes để áp dụng phương pháp Silhouette nhằm tìm số lượng cụm tối ưu. Lưu ý bạn sẽ dùng khoảng cách Euclidean khi tính điểm để đảm bảo khả năng so sánh với phương pháp Elbow.

Ma trận đặc trưng X mà bạn sẽ dùng để huấn luyện các mô hình K-Means đã được tạo sẵn.

Bạn đang ở cùng vị trí trong pipeline như vài bài trước, nhưng lần này sẽ thêm bước dự đoán nữa: Machine learning pipeline

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Import các mô-đun cần thiết để khởi tạo thuật toán K-Means và lấy điểm silhouette của nó.