IniziaInizia gratis

Tokenizzare il discorso di Gettysburg

In questo esercizio tokenizzerai uno dei discorsi più famosi di sempre: il discorso di Gettysburg pronunciato dal presidente americano Abraham Lincoln durante la Guerra Civile americana.

L'intero discorso è disponibile come stringa chiamata gettysburg.

Questo esercizio fa parte del corso

Feature Engineering per NLP in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Carica il modello en_core_web_sm usando spacy.load().
  • Crea un oggetto Doc doc per la stringa gettysburg.
  • Usando una list comprehension, itera su doc per generare i testi dei token.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

import spacy

# Load the en_core_web_sm model
nlp = ____.____(____)

# Create a Doc object
doc = ____(____)

# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)
Modifica ed esegui il codice