Menggunakan daftar istilah
Sering kali Anda tidak ingin mencari hanya satu istilah. Anda mungkin dapat membuat "kamus fraud" lengkap berisi istilah-istilah yang berpotensi menandai klien dan/atau transaksi yang fraud. Analis fraud biasanya sudah memiliki gambaran tentang apa saja yang seharusnya ada di kamus tersebut. Pada latihan ini Anda akan menandai banyak istilah, dan pada latihan berikutnya Anda akan membuat variabel flag baru dari hasilnya. 'Flag' dapat digunakan langsung dalam model machine learning sebagai fitur, atau sebagai filter tambahan di atas hasil model machine learning Anda. Mari terlebih dahulu gunakan daftar istilah untuk memfilter data kita. Dataframe yang berisi email yang telah dibersihkan kembali tersedia sebagai df.
Latihan ini adalah bagian dari kursus
Deteksi Kecurangan di Python
Petunjuk latihan
- Buat daftar untuk pencarian yang mencakup 'enron stock', 'sell stock', 'stock bonus', dan 'sell enron stock'.
- Gabungkan istilah string dalam kondisi pencarian.
- Saring data menggunakan email yang cocok dengan daftar yang ditentukan pada
searchfor.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a list of terms to search for
searchfor = ['____', '____', '____', '____']
# Filter cleaned emails on searchfor list and select from df
filtered_emails = df.____[____['_____'].____._____('|'.join(____), na=False)]
print(filtered_emails)