ComeçarComece de graça

Limpando dados de texto

Agora que você definiu as stopwords e pontuações, vamos usar isso para limpar ainda mais nossos e-mails da Enron no dataframe df. As listas com stopwords e pontuações estão disponíveis em stop e exclude. Ainda há alguns passos antes de ter os dados limpos, como a “lemmatization” das palavras e o stemming dos verbos. Os verbos nos dados dos e-mails já estão com stemming, e a lemmatization já foi feita para você neste exercício.

Este exercício faz parte do curso

Detecção de Fraudes em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the lemmatizer from nltk
from nltk.stem.wordnet import WordNetLemmatizer
lemma = WordNetLemmatizer()

# Define word cleaning function
def clean(text, stop):
    text = text.____()
	# Remove stopwords
    stop_free = " ".join([word for word in text.lower().split() if ((___ not in ___) and (not word.isdigit()))])
	# Remove punctuations
    punc_free = ''.join(word for word in stop_free if ___ not in ____)
	# Lemmatize all words
    normalized = " ".join(____.____(word) for word in punc_free.split())      
    return normalized
Editar e executar o código