Een lijst met termen gebruiken

Vaak wil je niet op slechts één term zoeken. Je kunt waarschijnlijk een volledig "fraudedictionary" samenstellen met termen die mogelijk frauduleuze klanten en/of transacties markeren. Fraudanalisten hebben vaak een idee wat er in zo'n dictionary moet staan. In deze oefening ga je meerdere termen markeren, en in de volgende oefening maak je daar een nieuwe vlagvariabele van. Die 'vlag' kun je direct gebruiken als feature in een Machine Learning-model, of als extra filter boven op de resultaten van je Machine Learning-model. Laten we eerst een lijst met termen gebruiken om onze data op te filteren. De dataframe met de opgeschoonde e‑mails is weer beschikbaar als df.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Bekijk cursus

Oefeninstructies

Maak een lijst om op te zoeken met 'enron stock', 'sell stock', 'stock bonus' en 'sell enron stock'.
Voeg de stringtermen samen in de zoekcondities.
Filter de data met de e‑mails die overeenkomen met de lijst gedefinieerd onder searchfor.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a list of terms to search for
searchfor = ['____', '____', '____', '____']

# Filter cleaned emails on searchfor list and select from df 
filtered_emails = df.____[____['_____'].____._____('|'.join(____), na=False)]
print(filtered_emails)

Code bewerken en uitvoeren