Limpando dados de texto
Agora que você definiu as stopwords e pontuações, vamos usar isso para limpar ainda mais nossos e-mails da Enron no dataframe df. As listas com stopwords e pontuações estão disponíveis em stop e exclude. Ainda há alguns passos antes de ter os dados limpos, como a “lemmatization” das palavras e o stemming dos verbos. Os verbos nos dados dos e-mails já estão com stemming, e a lemmatization já foi feita para você neste exercício.
Este exercício faz parte do curso
Detecção de Fraudes em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()
# Define word cleaning function
def clean(text, stop):
text = text.____()
# Remove stopwords
stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
# Remove punctuations
punc_free = ''.join(word for word in stop_free if ___ not in ____)
# Lemmatize all words
normalized = " ".join(____.____(word) for word in punc_free.split())
return normalized