Recherche de mots avec des dataframes

Dans cet exercice, vous allez travailler sur des données texte contenant des e-mails d’employés d’Enron. Le scandale Enron est une affaire de fraude célèbre. Des employés d’Enron ont dissimulé la mauvaise situation financière de l’entreprise, maintenant ainsi le cours de l’action artificiellement élevé. Ils ont vendu leurs propres stock-options et, lorsque la vérité a éclaté, les investisseurs d’Enron se sont retrouvés avec rien. L’objectif est de trouver tous les e-mails qui mentionnent certains mots, comme « sell enron stock ».

En utilisant des opérations sur les chaînes de caractères dans des dataframes, vous pouvez facilement passer au crible des e-mails désordonnés et créer des indicateurs à partir de mots repérés. Les e-mails d’Enron ont été rassemblés dans un dataframe nommé df, donc cherchons des termes suspects. N’hésitez pas à explorer df dans la Console avant de commencer.

Cet exercice fait partie du cours

<cours>Détection de fraude en Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Find all cleaned emails that contain 'sell enron stock'
mask = df['clean_content'].____.____('____', na=False)

Modifier et exécuter le code