1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với R

Connected

Bài tập

Tính robust z-scores

Hãy cùng xem lại bộ dữ liệu transfers mà chúng ta đã dùng ở Chương 1. Bộ dữ liệu có 222 giao dịch và có bốn trường hợp gian lận đã biết, được đánh dấu bằng 1 trong biến fraud_flag. Trước đây chúng ta đã nghiên cứu đặc trưng tần suất (frequency) và độ mới (recency). Lần này, bạn sẽ chỉ tập trung vào biến amount và thử phát hiện gian lận bằng cách áp dụng các kỹ thuật phát hiện ngoại lai đơn biến lên biến này.

Đừng ngần ngại khám phá bộ dữ liệu trong Console nếu bạn cần ôn lại cấu trúc của nó. Bạn cũng có thể xem lại các slide để kiểm tra các hàm đã được giới thiệu trong video trước.

Hướng dẫn

100 XP
  • Xác định những quan sát nào được gắn nhãn gian lận.
  • Tính trung vị và độ lệch tuyệt đối trung vị (mad) cho biến amount.
  • Dùng các ước lượng vững cho vị trí và phương sai để tính robust z-score cho từng quan sát.
  • Những quan sát nào có robust z-score lớn hơn 3 theo giá trị tuyệt đối?