Woordtokenization met NLTK

Hier ga je werken met de eerste scène van Monty Python's Holy Grail, die al is ingeladen als scene_one. Bekijk het gerust in de IPython-shell!

Je taak in deze oefening is om word_tokenize en sent_tokenize uit nltk.tokenize te gebruiken om zowel woorden als zinnen te tokenizen uit Python-strings — in dit geval de eerste scène van Monty Python's Holy Grail.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in Python

Bekijk cursus

Oefeninstructies

Importeer de functies sent_tokenize en word_tokenize uit nltk.tokenize.
Tokenize alle zinnen in scene_one met de functie sent_tokenize().
Tokenize de vierde zin in sentences, die je kunt benaderen als sentences[3], met de functie word_tokenize().
Zoek de unieke tokens in de hele scène door word_tokenize() op scene_one te gebruiken en het daarna om te zetten naar een set met set().
Print de gevonden unieke tokens. Dit is al voor je gedaan, dus klik op 'Antwoord verzenden' om de resultaten te zien!

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)

Code bewerken en uitvoeren