Tokenizar el discurso de Gettysburg
En este ejercicio, vas a tokenizar uno de los discursos más famosos de todos los tiempos: el discurso de Gettysburg pronunciado por el presidente estadounidense Abraham Lincoln durante la Guerra Civil de Estados Unidos.
Todo el discurso está disponible como una cadena llamada gettysburg.
Este ejercicio forma parte del curso
Ingeniería de características para NLP en Python
Instrucciones del ejercicio
- Carga el modelo
en_core_web_smusandospacy.load(). - Crea un objeto Doc
docpara la cadenagettysburg. - Usando una list comprehension, recorre
docpara generar los textos de los tokens.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
import spacy
# Load the en_core_web_sm model
nlp = ____.____(____)
# Create a Doc object
doc = ____(____)
# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)