1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Dùng danh sách thuật ngữ

Nhiều khi bạn không muốn chỉ tìm một thuật ngữ. Bạn có thể lập hẳn một "từ điển gian lận" gồm các thuật ngữ có thể gắn cờ khách hàng và/hoặc giao dịch gian lận. Các nhà phân tích gian lận thường sẽ biết nên có gì trong từ điển như vậy. Trong bài này, bạn sẽ gắn cờ nhiều thuật ngữ, và ở bài tiếp theo bạn sẽ tạo một biến cờ mới từ đó. 'Cờ' này có thể dùng trực tiếp làm một đặc trưng trong mô hình Machine Learning, hoặc như một bộ lọc bổ sung trên kết quả mô hình Machine Learning của bạn. Trước hết, hãy dùng một danh sách thuật ngữ để lọc dữ liệu. DataFrame chứa các email đã được làm sạch vẫn có sẵn dưới tên df.

Hướng dẫn

100 XP
  • Tạo danh sách để tìm kiếm gồm 'enron stock', 'sell stock', 'stock bonus', và 'sell enron stock'.
  • Nối (join) các chuỗi điều kiện tìm kiếm.
  • Lọc dữ liệu bằng các email khớp với danh sách được định nghĩa trong searchfor.