CommencerCommencer gratuitement

Nettoyer des données textuelles

Maintenant que vous avez défini les stopwords et la ponctuation, utilisons-les pour nettoyer davantage nos e-mails Enron dans le dataframe df. Les listes contenant les stopwords et la ponctuation sont disponibles sous stop et exclude. Il reste encore quelques étapes avant d’obtenir des données nettoyées, comme la « lemmatisation » des mots et le stemming des verbes. Les verbes dans les e-mails sont déjà « stemmés » et la lemmatisation est déjà faite pour vous dans cet exercice.

Cet exercice fait partie du cours

Détection de fraude en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()

# Define word cleaning function
def clean(text, stop):
    text = text.____()
	# Remove stopwords
    stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
	# Remove punctuations
    punc_free = ''.join(word for word in stop_free if ___ not in ____)
	# Lemmatize all words
    normalized = " ".join(____.____(word) for word in punc_free.split())      
    return normalized
Modifier et exécuter le code