ComenzarEmpieza gratis

Tokenizar el discurso de Gettysburg

En este ejercicio, vas a tokenizar uno de los discursos más famosos de todos los tiempos: el discurso de Gettysburg pronunciado por el presidente estadounidense Abraham Lincoln durante la Guerra Civil de Estados Unidos.

Todo el discurso está disponible como una cadena llamada gettysburg.

Este ejercicio forma parte del curso

Ingeniería de características para NLP en Python

Ver curso

Instrucciones del ejercicio

  • Carga el modelo en_core_web_sm usando spacy.load().
  • Crea un objeto Doc doc para la cadena gettysburg.
  • Usando una list comprehension, recorre doc para generar los textos de los tokens.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

import spacy

# Load the en_core_web_sm model
nlp = ____.____(____)

# Create a Doc object
doc = ____(____)

# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)
Editar y ejecutar código