1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Kiểm tra tỷ lệ gian lận so với không gian lận

Trong chương này, bạn sẽ làm việc với creditcard_sampledata.csv, một tập dữ liệu chứa thông tin giao dịch thẻ tín dụng. Rất may là các giao dịch gian lận chiếm tỷ lệ cực kỳ nhỏ trong tập này.

Tuy nhiên, các thuật toán Machine Learning thường hoạt động tốt nhất khi các lớp trong tập dữ liệu xuất hiện tương đối cân bằng. Nếu số trường hợp gian lận quá ít, sẽ có rất ít dữ liệu để học cách nhận diện chúng. Điều này được gọi là mất cân bằng lớp (class imbalance) và là một trong những thách thức chính của phát hiện gian lận.

Hãy khám phá tập dữ liệu này và quan sát vấn đề mất cân bằng lớp.

Hướng dẫn

100 XP
  • Import pandas với bí danh pd, đọc dữ liệu thẻ tín dụng và gán vào df. Việc này đã được thực hiện sẵn cho bạn.
  • Dùng .info() để in thông tin về df.
  • Dùng .value_counts() để lấy số lượng giao dịch gian lận và không gian lận trong cột 'Class'. Gán kết quả vào occ.
  • Tính tỷ lệ giao dịch gian lận trên tổng số giao dịch trong tập dữ liệu.