Aan de slagBegin gratis

Tokenizen van de Gettysburg Address

In deze oefening ga je een van de beroemdste toespraken aller tijden tokenizen: de Gettysburg Address, uitgesproken door de Amerikaanse president Abraham Lincoln tijdens de Amerikaanse Burgeroorlog.

De volledige toespraak is beschikbaar als een string met de naam gettysburg.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Bekijk cursus

Oefeninstructies

  • Laad het model en_core_web_sm met spacy.load().
  • Maak een Doc-object doc voor de string gettysburg.
  • Gebruik list comprehension en loop over doc om de token-teksten te genereren.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

import spacy

# Load the en_core_web_sm model
nlp = ____.____(____)

# Create a Doc object
doc = ____(____)

# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)
Code bewerken en uitvoeren