Créer un indicateur
Cette fois, vous allez créer une véritable variable d’indicateur qui vaut 1 lorsque l’e-mail contient l’un des termes recherchés, et 0 sinon. C’est la dernière étape nécessaire pour exploiter le contenu textuel comme caractéristique dans un modèle de Machine Learning, ou comme indicateur appliqué aux résultats du modèle. Vous pouvez continuer à travailler avec le dataframe df qui contient les e-mails, et la liste searchfor est celle définie dans l’exercice précédent.
Cet exercice fait partie du cours
Détection de fraude en Python
Instructions
- Utilisez une condition numpy where pour mettre un indicateur « 1 » lorsque l’e-mail nettoyé contient un mot de la liste
searchfor, et 0 sinon. - Joignez les mots de la liste
searchforavec un opérateur « ou ». - Comptez les valeurs de la variable indicatrice que vous venez de créer.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create flag variable where the emails match the searchfor terms
df['flag'] = ____.____((df['clean_content'].___.____('____'.____(____)) == True), 1, 0)
# Count the values of the flag variable
count = df['flag'].____()
print(count)