1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Phát hiện ngoại lệ

Trong các bài tập tiếp theo, bạn sẽ dùng thuật toán K-means để dự đoán gian lận, rồi so sánh các dự đoán đó với nhãn thực tế đã lưu để kiểm chứng kết quả.

Các giao dịch gian lận thường được đánh dấu là những quan sát cách xa tâm cụm nhất. Bạn sẽ học cách thực hiện điều này và cách xác định ngưỡng cắt trong bài tập này. Ở bài tiếp theo, bạn sẽ kiểm tra kết quả.

Bạn có sẵn các quan sát đã được scale X_scaled, cũng như các nhãn được lưu trong biến y.

Hướng dẫn

100 XP
  • Chia dữ liệu đã scale và nhãn y thành tập train và test.
  • Khai báo mô hình MiniBatch K-means với 3 cụm và fit trên dữ liệu huấn luyện.
  • Lấy dự đoán cụm cho dữ liệu kiểm tra và lấy các centroid của cụm.
  • Đặt ranh giới giữa gian lận và không gian lận tại mức từ bách phân vị 95% của phân phối khoảng cách trở lên.