Aan de slagGa gratis aan de slag

Zoeken naar woorden met dataframes

In deze oefening ga je aan de slag met tekstdata: e-mails van Enron-medewerkers. Het Enron-schandaal is een bekend fraudedos­sier. Enron-medewerkers verhulden de slechte financiële positie van het bedrijf, waardoor de aandelenkoers kunstmatig hoog bleef. Medewerkers verkochten hun eigen stockopties en toen de waarheid uitkwam, bleven Enron-beleggers met lege handen achter. Het doel is om alle e-mails te vinden die specifieke woorden noemen, zoals "sell enron stock".

Door tekenreeksbewerkingen op dataframes te gebruiken, kun je rommelige e-maildata makkelijk doorzoeken en vlaggen zetten op basis van woordtreffers. De Enron-e-maildata staat in een dataframe df, dus laten we zoeken naar verdachte termen. Verken df gerust eerst in de Console voordat je begint.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Find all cleaned emails that contain 'sell enron stock'
mask = df['clean_content'].____.____('____', na=False)
Code bewerken en uitvoeren