DBSCAN

Trong bài tập này, bạn sẽ thử dùng phương pháp clustering dựa trên mật độ (DBSCAN) để phát hiện gian lận. Ưu điểm của DBSCAN là bạn không cần xác định trước số cụm. Ngoài ra, DBSCAN xử lý dữ liệu có hình dạng “kỳ lạ” (phi lồi) tốt hơn nhiều so với K-means. Lần này, thay vì lấy các điểm ngoại lai của cụm để coi là gian lận, bạn sẽ lấy những cụm nhỏ nhất trong dữ liệu và gán nhãn chúng là gian lận. Bạn vẫn có sẵn tập dữ liệu đã được scale, tức là X_scaled. Hãy thử nhé!

Import DBSCAN.
Khởi tạo một mô hình DBSCAN, đặt khoảng cách tối đa giữa hai điểm là 0.9 và số quan sát tối thiểu trong cụm là 10, rồi fit mô hình với dữ liệu đã được scale.
Lấy các nhãn dự đoán, đây là số cụm được gán cho từng quan sát.
In số lượng cụm và các chỉ số đánh giá hiệu năng còn lại.

Bài tập

DBSCAN

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập