Wortsuche mit DataFrames
In dieser Übung arbeitest du mit Textdaten, die E-Mails von Enron-Mitarbeitenden enthalten. Der Enron-Skandal ist ein berühmter Betrugsfall. Enron-Beschäftigte verschleierten die schlechte finanzielle Lage des Unternehmens und hielten so den Aktienkurs künstlich hoch. Währenddessen verkauften Enron-Mitarbeitende ihre eigenen Aktienoptionen, und als die Wahrheit ans Licht kam, blieben Enron-Anlegerinnen und -Anleger mit leeren Händen zurück. Dein Ziel ist es, alle E-Mails zu finden, die bestimmte Wörter erwähnen, zum Beispiel „sell enron stock“.
Mit String-Operationen auf DataFrames kannst du unübersichtliche E-Mail-Daten leicht durchsuchen und auf Basis von Worttreffern Flags setzen. Die Enron-E-Mail-Daten wurden in einen DataFrame namens df geladen – suchen wir also nach verdächtigen Begriffen. Schau dir df gerne vorab in der Konsole an, bevor du loslegst.
Diese Übung ist Teil des Kurses
<Kurs>Betrugserkennung mit Python</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Find all cleaned emails that contain 'sell enron stock'
mask = df['clean_content'].____.____('____', na=False)