Limpiar una entrada de blog
En este ejercicio, se te ha dado un fragmento de una entrada de blog. Tu tarea es limpiar este texto para que sea más fácil de procesar por una máquina. Esto implica convertirlo a minúsculas, aplicar lematización y eliminar stopwords, signos de puntuación y caracteres no alfabéticos.
El fragmento está disponible como una cadena blog y se ha impreso en la consola. La lista de stopwords está disponible como stopwords.
Este ejercicio forma parte del curso
Ingeniería de características para NLP en Python
Instrucciones del ejercicio
- Usando una list comprehension, recorre
docpara extraer ellemma_de cada token. - Elimina las stopwords y los tokens no alfabéticos usando
stopwordseisalpha().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)
# Generate lemmatized tokens
lemmas = [token.____ for token in ____]
# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in ____]
# Print string after text cleaning
print(' '.join(a_lemmas))