Woordtokenization met NLTK
Hier ga je werken met de eerste scène van Monty Python's Holy Grail, die al is ingeladen als scene_one. Bekijk het gerust in de IPython-shell!
Je taak in deze oefening is om word_tokenize en sent_tokenize uit nltk.tokenize te gebruiken om zowel woorden als zinnen te tokenizen uit Python-strings — in dit geval de eerste scène van Monty Python's Holy Grail.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in Python
Oefeninstructies
- Importeer de functies
sent_tokenizeenword_tokenizeuitnltk.tokenize. - Tokenize alle zinnen in
scene_onemet de functiesent_tokenize(). - Tokenize de vierde zin in
sentences, die je kunt benaderen alssentences[3], met de functieword_tokenize(). - Zoek de unieke tokens in de hele scène door
word_tokenize()opscene_onete gebruiken en het daarna om te zetten naar een set metset(). - Print de gevonden unieke tokens. Dit is al voor je gedaan, dus klik op 'Antwoord verzenden' om de resultaten te zien!
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)