Limpando uma postagem de blog

Neste exercício, você recebeu um trecho de uma postagem de blog. Sua tarefa é limpar esse texto para um formato mais adequado a máquinas. Isso envolve converter para minúsculas, aplicar lematização e remover stopwords, pontuação e caracteres não alfabéticos.

O trecho está disponível como a string blog e já foi impresso no console. A lista de stopwords está disponível como stopwords.

Este exercicio faz parte do curso

Feature Engineering para NLP em Python

Ver curso

Instruções do exercicio

Usando list comprehension, percorra doc para extrair o lemma_ de cada token.
Remova as stopwords e os tokens não alfabéticos usando stopwords e isalpha().

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)

# Generate lemmatized tokens
lemmas = [token.____ for token in ____]

# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in ____]

# Print string after text cleaning
print(' '.join(a_lemmas))

Editar e Executar Código