Limpando uma postagem de blog
Neste exercício, você recebeu um trecho de uma postagem de blog. Sua tarefa é limpar esse texto para um formato mais adequado a máquinas. Isso envolve converter para minúsculas, aplicar lematização e remover stopwords, pontuação e caracteres não alfabéticos.
O trecho está disponível como a string blog e já foi impresso no console. A lista de stopwords está disponível como stopwords.
Este exercício faz parte do curso
Feature Engineering para NLP em Python
Instruções do exercício
- Usando list comprehension, percorra
docpara extrair olemma_de cada token. - Remova as stopwords e os tokens não alfabéticos usando
stopwordseisalpha().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)
# Generate lemmatized tokens
lemmas = [token.____ for token in ____]
# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in ____]
# Print string after text cleaning
print(' '.join(a_lemmas))