Tokenize een string uit GoT
Een eerste standaardstap bij het werken met tekst is tokenizen: een grotere string opsplitsen in afzonderlijke strings, meestal losse woorden (tokens).
Er is een string GoT voor je aangemaakt met een citaat uit George R.R. Martins Game of Thrones. Jouw taak is om deze op te splitsen in afzonderlijke tokens.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Importeer de functie voor het tokenizen van woorden uit
nltk. - Zet de string
GoTom naar woordtokens.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the required function
from nltk import ____
# Transform the GoT string to word tokens
print(____(____))