Utiliser une liste de termes
Il arrive souvent que vous ne souhaitiez pas rechercher un seul terme. Vous pouvez probablement constituer un véritable « dictionnaire de fraude » de termes susceptibles de signaler des clients et/ou des transactions frauduleux. Les analystes fraude ont généralement une idée de ce que ce dictionnaire doit contenir. Dans cet exercice, vous allez marquer une multitude de termes, puis, dans le suivant, vous créerez une nouvelle variable de marquage à partir de ceux-ci. Ce « flag » peut être utilisé directement comme variable explicative dans un modèle de Machine Learning, ou comme filtre supplémentaire au-dessus des résultats de votre modèle de Machine Learning. Commençons par utiliser une liste de termes pour filtrer nos données. Le dataframe contenant les e-mails nettoyés est à nouveau disponible sous df.
Cet exercice fait partie du cours
Détection de fraude en Python
Instructions
- Créez une liste à rechercher comprenant « enron stock », « sell stock », « stock bonus » et « sell enron stock ».
- Joignez les chaînes de caractères dans les conditions de recherche.
- Filtrez les données en utilisant les e-mails qui correspondent à la liste définie dans
searchfor.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a list of terms to search for
searchfor = ['____', '____', '____', '____']
# Filter cleaned emails on searchfor list and select from df
filtered_emails = df.____[____['_____'].____._____('|'.join(____), na=False)]
print(filtered_emails)