Tokenizzare il discorso di Gettysburg
In questo esercizio tokenizzerai uno dei discorsi più famosi di sempre: il discorso di Gettysburg pronunciato dal presidente americano Abraham Lincoln durante la Guerra Civile americana.
L'intero discorso è disponibile come stringa chiamata gettysburg.
Questo esercizio fa parte del corso
Feature Engineering per NLP in Python
Istruzioni dell'esercizio
- Carica il modello
en_core_web_smusandospacy.load(). - Crea un oggetto Doc
docper la stringagettysburg. - Usando una list comprehension, itera su
docper generare i testi dei token.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
import spacy
# Load the en_core_web_sm model
nlp = ____.____(____)
# Create a Doc object
doc = ____(____)
# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)