Removendo stopwords
Nos próximos exercícios, você vai limpar os e-mails da Enron para poder usar os dados em um modelo de tópicos. Limpar texto pode ser desafiador, então você vai aprender alguns passos para fazer isso bem. O dataframe com os e-mails, df, está disponível. No primeiro passo, você precisa definir a lista de stopwords e pontuações que serão removidas do texto no próximo exercício. Vamos lá?
Este exercício faz parte do curso
Detecção de Fraudes em Python
Instruções do exercício
- Importe as stopwords de
ntlk. - Defina as palavras 'english' para usar como stopwords na variável
stop. - Obtenha o conjunto de pontuação do pacote
stringe atribua aexclude.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import nltk packages and string
from nltk.corpus import ____
import string
# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))
# Define punctuations to exclude and lemmatizer
exclude = set(____.____)