Een lijst met termen gebruiken
Vaak wil je niet op slechts één term zoeken. Je kunt waarschijnlijk een volledig "fraudedictionary" samenstellen met termen die mogelijk frauduleuze klanten en/of transacties markeren. Fraudanalisten hebben vaak een idee wat er in zo'n dictionary moet staan. In deze oefening ga je meerdere termen markeren, en in de volgende oefening maak je daar een nieuwe vlagvariabele van. Die 'vlag' kun je direct gebruiken als feature in een Machine Learning-model, of als extra filter boven op de resultaten van je Machine Learning-model. Laten we eerst een lijst met termen gebruiken om onze data op te filteren. De dataframe met de opgeschoonde e‑mails is weer beschikbaar als df.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Maak een lijst om op te zoeken met 'enron stock', 'sell stock', 'stock bonus' en 'sell enron stock'.
- Voeg de stringtermen samen in de zoekcondities.
- Filter de data met de e‑mails die overeenkomen met de lijst gedefinieerd onder
searchfor.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a list of terms to search for
searchfor = ['____', '____', '____', '____']
# Filter cleaned emails on searchfor list and select from df
filtered_emails = df.____[____['_____'].____._____('|'.join(____), na=False)]
print(filtered_emails)