Tokenization met spaCy
In deze oefening ga je tekst tokenizen. Je gebruikt hiervoor de eerste review uit de Amazon Fine Food Reviews-gegevensset. Je hebt toegang tot deze review via het object text dat is meegeleverd.
Het model en_core_web_sm is al voor je geladen. Je kunt het aanroepen met nlp(). Je kunt list comprehension gebruiken om lijsten met output samen te stellen.
Deze oefening maakt deel uit van de cursus
Natural Language Processing met spaCy
Oefeninstructies
- Sla de Doc-container voor de vooraf geladen review op in een object
document. - Sla de teksten van alle tokens van het
documentop en bekijk ze in de variabelefirst_text_tokens.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a Doc container of the given text
document = ____(____)
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")