1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với R

Connected

Bài tập

Lấy mẫu ngẫu nhiên theo hướng over-sampling

Chỉ một phần rất nhỏ các giao dịch chuyển khoản là gian lận. Bây giờ bạn sẽ over-sample các trường hợp gian lận để cân bằng phân bố lớp. Biến Class trong dữ liệu creditcard nhận giá trị 1 nếu là gian lận và 0 nếu không.

Bạn có thể dùng console để hiển thị các cột của 'creditcard' với str(), in 6 dòng đầu của dữ liệu với head() và kiểm tra cân bằng lớp với table(creditcard$Class).

Hướng dẫn

100 XP
  • Nạp gói ROSE.
  • Xác định n_new là số lượng quan sát cần có trong dữ liệu sau khi over-sample sao cho bộ dữ liệu mới gồm 30% trường hợp gian lận và 70% trường hợp hợp lệ. Để làm vậy, hãy lấy số lượng hợp lệ hiện có chia cho tỷ lệ mong muốn của hợp lệ trong dữ liệu sau khi over-sample.
  • Dùng hàm ovun.sample() để over-sample với công thức Class ~ ..
  • Kiểm tra cân bằng lớp của dữ liệu sau khi over-sample.