CommencerCommencer gratuitement

Supprimer les stopwords

Dans les exercices suivants, vous allez nettoyer les e-mails d’Enron afin de pouvoir utiliser les données dans un modèle thématique. Le nettoyage de texte peut être délicat ; vous allez donc découvrir quelques étapes pour bien le réaliser. Le DataFrame contenant les e-mails, df, est disponible. Pour commencer, vous devez définir la liste des stopwords et des signes de ponctuation à supprimer du texte dans l’exercice suivant. À vous de jouer.

Cet exercice fait partie du cours

Détection de fraude en Python

Afficher le cours

Instructions

  • Importez les stopwords depuis ntlk.
  • Définissez les mots 'english' à utiliser comme stopwords dans la variable stop.
  • Récupérez l’ensemble des signes de ponctuation depuis le package string et assignez-le à exclude.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import nltk packages and string 
from nltk.corpus import ____
import string

# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))

# Define punctuations to exclude and lemmatizer
exclude = set(____.____)
Modifier et exécuter le code