1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với R

Connected

Bài tập

Thu nhỏ nhóm chiếm đa số

Thay vì tăng số trường hợp gian lận trong tập dữ liệu, bạn có thể ngẫu nhiên loại bớt các trường hợp hợp lệ để cân bằng tập dữ liệu. Hãy under-sample lớp chiếm đa số (Class = 0) trong tập creditcard. Bạn có thể dùng table() trong console để biết có bao nhiêu giao dịch gian lận và hợp lệ trong tập dữ liệu.

Hướng dẫn

100 XP
  • Tải thư viện ROSE.
  • Xác định n_new là số lượng quan sát cần có trong tập dữ liệu sau khi under-sample sao cho tập mới gồm 40% trường hợp gian lận. Để làm vậy, hãy chia số trường hợp gian lận cho tỷ lệ phần trăm gian lận mong muốn trong tập under-sample.
  • Thực hiện under-sample cho tập dữ liệu.
  • Dùng table() và prop.table() để kiểm tra mức cân bằng lớp của tập dữ liệu đã under-sample.