1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Vẽ biểu đồ dữ liệu của bạn

Từ bài tập trước, chúng ta biết tỷ lệ quan sát gian lận so với không gian lận là rất thấp. Bạn có thể xử lý điều đó, ví dụ bằng cách lấy mẫu lại (re-sampling) dữ liệu, nội dung sẽ được giải thích trong video tiếp theo.

Trong bài này, bạn sẽ xem dữ liệu và trực quan hóa tỷ lệ gian lận so với không gian lận. Đây luôn là điểm khởi đầu tốt cho phân tích gian lận: hãy xem dữ liệu trước khi bạn thay đổi bất cứ điều gì.

Ngoài ra, khi trao đổi với đồng nghiệp, một hình ảnh thường giúp làm rõ rằng chúng ta đang làm việc với dữ liệu mất cân bằng nặng. Hãy tạo một biểu đồ để trực quan hóa tỷ lệ điểm dữ liệu gian lận so với không gian lận trên tập dữ liệu df.

Hàm prep_data() đã được nạp sẵn trong môi trường làm việc của bạn, cũng như matplotlib.pyplot dưới tên plt.

Hướng dẫn

100 XP
  • Định nghĩa hàm plot_data(X, y) để vẽ scatter plot đẹp cho tập đặc trưng X với nhãn y. Phần này đã được làm sẵn cho bạn.

  • Dùng hàm prep_data() trên tập dữ liệu df để tạo tập đặc trưng X và nhãn y.

  • Chạy hàm plot_data() với X và y vừa tạo để trực quan hóa kết quả.