ComeçarComece de graça

Limpando uma postagem de blog

Neste exercício, você recebeu um trecho de uma postagem de blog. Sua tarefa é limpar esse texto para um formato mais adequado a máquinas. Isso envolve converter para minúsculas, aplicar lematização e remover stopwords, pontuação e caracteres não alfabéticos.

O trecho está disponível como a string blog e já foi impresso no console. A lista de stopwords está disponível como stopwords.

Este exercício faz parte do curso

Feature Engineering para NLP em Python

Ver curso

Instruções do exercício

  • Usando list comprehension, percorra doc para extrair o lemma_ de cada token.
  • Remova as stopwords e os tokens não alfabéticos usando stopwords e isalpha().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)

# Generate lemmatized tokens
lemmas = [token.____ for token in ____]

# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in ____]

# Print string after text cleaning
print(' '.join(a_lemmas))
Editar e executar o código