1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Tìm kiếm từ khóa với dataframe

Trong bài tập này, bạn sẽ làm việc với dữ liệu văn bản là email của nhân viên Enron. Bê bối Enron là một vụ gian lận nổi tiếng: nhân viên Enron che giấu tình hình tài chính xấu của công ty, khiến giá cổ phiếu bị thổi phồng. Họ đã bán các quyền chọn cổ phiếu của chính mình, và khi sự thật phơi bày, nhà đầu tư Enron trắng tay. Mục tiêu của bạn là tìm tất cả email nhắc đến những từ/cụm từ cụ thể, chẳng hạn "sell enron stock".

Bằng cách dùng các thao tác chuỗi trên dataframe, bạn có thể nhanh chóng lọc qua dữ liệu email lộn xộn và tạo cờ (flag) dựa trên các lần trùng từ khóa. Dữ liệu email Enron đã được đưa vào một dataframe tên df, vậy hãy bắt đầu tìm các thuật ngữ đáng ngờ. Bạn có thể khám phá df trong Console trước khi bắt đầu.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Xem phần đầu của df trong console và tìm các email có nhắc 'sell enron stock'.