1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Tỷ lệ trúng tự nhiên

Trong bài tập này, bạn sẽ tiếp tục dùng dữ liệu giao dịch thẻ tín dụng. Các đặc trưng và nhãn tương tự dữ liệu ở chương trước, và dữ liệu bị mất cân bằng nghiêm trọng. Chúng tôi đã cung cấp sẵn đặc trưng X và nhãn y để bạn làm việc, cả hai đều là mảng NumPy.

Trước tiên bạn cần khám phá mức độ phổ biến của gian lận trong bộ dữ liệu, để hiểu "độ chính xác tự nhiên" là bao nhiêu nếu ta dự đoán tất cả đều không gian lận. Việc này quan trọng để biết mức "độ chính xác" nào bạn cần phải "vượt qua" nhằm đạt dự đoán tốt hơn so với không làm gì cả. Ở các bài tập tiếp theo, bạn sẽ tạo bộ phân loại random forest đầu tiên cho phát hiện gian lận. Mô hình đó sẽ đóng vai trò là "đường cơ sở" (baseline) mà bạn sẽ cố gắng cải thiện trong các bài tập kế tiếp.

Hướng dẫn

100 XP
  • Đếm tổng số quan sát bằng cách lấy độ dài của nhãn y.
  • Đếm số trường hợp không gian lận trong dữ liệu bằng list comprehension trên y; nhớ rằng y là một mảng NumPy nên không thể dùng .value_counts() trong trường hợp này.
  • Tính độ chính xác tự nhiên bằng cách chia số trường hợp không gian lận cho tổng số quan sát.
  • In ra phần trăm.