Wortsuche mit DataFrames
In dieser Übung arbeitest du mit Textdaten, die E-Mails von Enron-Mitarbeitenden enthalten. Der Enron-Skandal ist ein berühmter Betrugsfall. Enron-Beschäftigte verschleierten die schlechte finanzielle Lage des Unternehmens und hielten so den Aktienkurs künstlich hoch. Währenddessen verkauften Enron-Mitarbeitende ihre eigenen Aktienoptionen, und als die Wahrheit ans Licht kam, blieben Enron-Anlegerinnen und -Anleger mit leeren Händen zurück. Dein Ziel ist es, alle E-Mails zu finden, die bestimmte Wörter erwähnen, zum Beispiel „sell enron stock“.
Mit String-Operationen auf DataFrames kannst du unübersichtliche E-Mail-Daten leicht durchsuchen und auf Basis von Worttreffern Flags setzen. Die Enron-E-Mail-Daten wurden in einen DataFrame namens df geladen – suchen wir also nach verdächtigen Begriffen. Schau dir df gerne vorab in der Konsole an, bevor du loslegst.
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Find all cleaned emails that contain 'sell enron stock'
mask = df['clean_content'].____.____('____', na=False)