1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế quy trình Machine Learning bằng Python

Connected

Bài tập

Độ nhiễm (contamination) của LoF

Cố vấn y khoa tại startup về rối loạn nhịp tim cho bạn biết rằng dữ liệu huấn luyện có thể không bao phủ tất cả các loại rối loạn nhịp. Làm sao bạn có thể phát hiện các loại khác khi không có mẫu gán nhãn? Liệu một bộ phát hiện bất thường có thể phân biệt khỏe mạnh và không khỏe mạnh mà không cần nhãn không? Trước hết, bạn sẽ thử nghiệm với tham số contamination để xem nó ảnh hưởng đến ma trận nhầm lẫn như thế nào. Bạn có LocalOutlierFactor là lof, numpy là np, nhãn là ground_truth được mã hóa bằng -1 và 1 giống như đầu ra của local outlier factor, và dữ liệu huấn luyện chưa gán nhãn là X.

Hướng dẫn 1/3

undefined XP
  • 1

    Fit local outlier factor, xuất dự đoán trên X và in ma trận nhầm lẫn cho các dự đoán này.

  • 2

    Lặp lại nhưng lần này đặt tỷ lệ điểm dữ liệu bị gắn cờ là ngoại lệ thành 0.2. In ma trận nhầm lẫn.

  • 3

    Bây giờ đặt contamination bằng đúng tỷ lệ ngoại lệ thực tế trong dữ liệu.