Lematización con spaCy
En este ejercicio vas a practicar la lematización. La lematización ayuda a obtener la forma raíz de palabras derivadas. Esto implica que, dada cualquier frase, esperamos que el número de lemas sea menor o igual que el número de tokens.
La primera reseña de comida de Amazon se proporciona en una cadena llamada text. en_core_web_sm está cargado como nlp y se ha ejecutado sobre text para crear document, un contenedor Doc para esa cadena de texto.
tokens, una lista que contiene los tokens de text, también está cargada y lista para que la uses.
Este ejercicio forma parte del curso
Procesamiento del Lenguaje Natural con spaCy
Instrucciones del ejercicio
- Añade el lema de todos los tokens en
documenty, después, imprime la listalemmas. - Imprime la lista
tokensy observa las diferencias entretokensylemmas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
document = nlp(text)
tokens = [token.text for token in document]
# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")
# Print tokens and compare with lemmas list
print("Tokens:\n", ____)