ComenzarEmpieza gratis

Lematización con spaCy

En este ejercicio vas a practicar la lematización. La lematización ayuda a obtener la forma raíz de palabras derivadas. Esto implica que, dada cualquier frase, esperamos que el número de lemas sea menor o igual que el número de tokens.

La primera reseña de comida de Amazon se proporciona en una cadena llamada text. en_core_web_sm está cargado como nlp y se ha ejecutado sobre text para crear document, un contenedor Doc para esa cadena de texto.

tokens, una lista que contiene los tokens de text, también está cargada y lista para que la uses.

Este ejercicio forma parte del curso

Procesamiento del Lenguaje Natural con spaCy

Ver curso

Instrucciones del ejercicio

  • Añade el lema de todos los tokens en document y, después, imprime la lista lemmas.
  • Imprime la lista tokens y observa las diferencias entre tokens y lemmas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

document = nlp(text)
tokens = [token.text for token in document]

# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")

# Print tokens and compare with lemmas list
print("Tokens:\n", ____)
Editar y ejecutar código