Removendo stopwords

Nos próximos exercícios, você vai limpar os e-mails da Enron para poder usar os dados em um modelo de tópicos. Limpar texto pode ser desafiador, então você vai aprender alguns passos para fazer isso bem. O dataframe com os e-mails, df, está disponível. No primeiro passo, você precisa definir a lista de stopwords e pontuações que serão removidas do texto no próximo exercício. Vamos lá?

Este exercicio faz parte do curso

Detecção de Fraudes em Python

Ver curso

Instruções do exercicio

Importe as stopwords de ntlk.
Defina as palavras 'english' para usar como stopwords na variável stop.
Obtenha o conjunto de pontuação do pacote string e atribua a exclude.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import nltk packages and string 
from nltk.corpus import ____
import string

# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))

# Define punctuations to exclude and lemmatizer
exclude = set(____.____)

Editar e Executar Código