1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Phân cụm K-means

Một thuật toán phân cụm được dùng rất phổ biến là K-means clustering. Với phát hiện gian lận, K-means dễ triển khai và khá hiệu quả trong việc dự đoán các trường hợp đáng ngờ. Đây là thuật toán tốt để bắt đầu khi xử lý các bài toán phát hiện gian lận. Tuy nhiên, dữ liệu gian lận thường rất lớn, đặc biệt khi bạn làm việc với dữ liệu giao dịch. MiniBatch K-means là cách hiệu quả để triển khai K-means trên tập dữ liệu lớn, và bạn sẽ dùng cách này trong bài tập này.

Dữ liệu đã được scale từ bài trước, X_scaled, đã sẵn sàng. Hãy thử áp dụng nhé.

Hướng dẫn

100 XP
  • Import MiniBatchKMeans từ sklearn.
  • Khởi tạo mô hình minibatch kmeans với 8 cụm.
  • Fit mô hình với dữ liệu đã scale của bạn.