Ricerca di parole con i dataframe
In questo esercizio lavorerai con dati testuali, che contengono email di dipendenti Enron. Lo scandalo Enron è un famoso caso di frode. I dipendenti Enron hanno occultato la cattiva situazione finanziaria dell’azienda, mantenendo artificiosamente alto il prezzo delle azioni. Intanto vendevano le proprie stock option e, quando la verità è venuta a galla, gli investitori Enron sono rimasti a mani vuote. L’obiettivo è trovare tutte le email che menzionano parole specifiche, come "sell enron stock".
Usando le operazioni sulle stringhe nei dataframe, puoi passare al setaccio con facilità dati email disordinati e creare flag in base alle parole trovate. I dati delle email Enron sono stati inseriti in un dataframe chiamato df: cerchiamo quindi termini sospetti. Sentiti libero di esplorare df nella Console prima di iniziare.
Questo esercizio fa parte del corso
Rilevamento delle frodi in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Find all cleaned emails that contain 'sell enron stock'
mask = df['clean_content'].____.____('____', na=False)