Aan de slagGa gratis aan de slag

Tokenizen van de Gettysburg Address

In deze oefening ga je een van de beroemdste toespraken aller tijden tokenizen: de Gettysburg Address, uitgesproken door de Amerikaanse president Abraham Lincoln tijdens de Amerikaanse Burgeroorlog.

De volledige toespraak is beschikbaar als een string met de naam gettysburg.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Cursus bekijken

Oefeninstructies

  • Laad het model en_core_web_sm met spacy.load().
  • Maak een Doc-object doc voor de string gettysburg.
  • Gebruik list comprehension en loop over doc om de token-teksten te genereren.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

import spacy

# Load the en_core_web_sm model
nlp = ____.____(____)

# Create a Doc object
doc = ____(____)

# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)
Code bewerken en uitvoeren