Tokenizen van de Gettysburg Address
In deze oefening ga je een van de beroemdste toespraken aller tijden tokenizen: de Gettysburg Address, uitgesproken door de Amerikaanse president Abraham Lincoln tijdens de Amerikaanse Burgeroorlog.
De volledige toespraak is beschikbaar als een string met de naam gettysburg.
Deze oefening maakt deel uit van de cursus
Feature Engineering voor NLP in Python
Oefeninstructies
- Laad het model
en_core_web_smmetspacy.load(). - Maak een Doc-object
docvoor de stringgettysburg. - Gebruik list comprehension en loop over
docom de token-teksten te genereren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
import spacy
# Load the en_core_web_sm model
nlp = ____.____(____)
# Create a Doc object
doc = ____(____)
# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)