Eine Liste von Begriffen verwenden
Oft willst du nicht nur nach einem einzigen Begriff suchen. Du kannst wahrscheinlich ein komplettes „Fraud-Wörterbuch“ mit Begriffen erstellen, die potenziell betrügerische Kund:innen und/oder Transaktionen kennzeichnen. Fraud-Analyst:innen haben oft eine Vorstellung davon, was in so ein Wörterbuch gehört. In dieser Übung wirst du eine Vielzahl an Begriffen kennzeichnen, und in der nächsten Übung erzeugst du daraus eine neue Flag-Variable. Diese „Flag“ kann entweder direkt als Feature in einem Machine-Learning-Modell verwendet werden oder als zusätzlicher Filter auf die Ergebnisse deines Machine-Learning-Modells. Lass uns zuerst eine Liste von Begriffen nutzen, um unsere Daten zu filtern. Das DataFrame mit den bereinigten E-Mails ist wieder als df verfügbar.
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Anleitung zur Übung
- Erstelle eine Suchliste mit „enron stock“, „sell stock“, „stock bonus“ und „sell enron stock“.
- Verknüpfe die String-Begriffe in den Suchbedingungen.
- Filtere die Daten mithilfe der E-Mails, die mit der unter
searchfordefinierten Liste übereinstimmen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a list of terms to search for
searchfor = ['____', '____', '____', '____']
# Filter cleaned emails on searchfor list and select from df
filtered_emails = df.____[____['_____'].____._____('|'.join(____), na=False)]
print(filtered_emails)