Supprimer les stopwords
Dans les exercices suivants, vous allez nettoyer les e-mails d’Enron afin de pouvoir utiliser les données dans un modèle thématique. Le nettoyage de texte peut être délicat ; vous allez donc découvrir quelques étapes pour bien le réaliser. Le DataFrame contenant les e-mails, df, est disponible. Pour commencer, vous devez définir la liste des stopwords et des signes de ponctuation à supprimer du texte dans l’exercice suivant. À vous de jouer.
Cet exercice fait partie du cours
Détection de fraude en Python
Instructions
- Importez les stopwords depuis
ntlk. - Définissez les mots 'english' à utiliser comme stopwords dans la variable
stop. - Récupérez l’ensemble des signes de ponctuation depuis le package
stringet assignez-le àexclude.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import nltk packages and string
from nltk.corpus import ____
import string
# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))
# Define punctuations to exclude and lemmatizer
exclude = set(____.____)