ComeçarComece de graça

Removendo stopwords

Nos próximos exercícios, você vai limpar os e-mails da Enron para poder usar os dados em um modelo de tópicos. Limpar texto pode ser desafiador, então você vai aprender alguns passos para fazer isso bem. O dataframe com os e-mails, df, está disponível. No primeiro passo, você precisa definir a lista de stopwords e pontuações que serão removidas do texto no próximo exercício. Vamos lá?

Este exercício faz parte do curso

Detecção de Fraudes em Python

Ver curso

Instruções do exercício

  • Importe as stopwords de ntlk.
  • Defina as palavras 'english' para usar como stopwords na variável stop.
  • Obtenha o conjunto de pontuação do pacote string e atribua a exclude.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import nltk packages and string 
from nltk.corpus import ____
import string

# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))

# Define punctuations to exclude and lemmatizer
exclude = set(____.____)
Editar e executar o código