Worttokenisierung mit NLTK
Hier arbeitest du mit der ersten Szene aus Monty Pythons „Holy Grail“, die als scene_one bereits geladen ist. Schau sie dir gern in der IPython Shell an!
Deine Aufgabe in dieser Übung ist es, word_tokenize und sent_tokenize aus nltk.tokenize zu nutzen, um sowohl Wörter als auch Sätze aus Python-Strings zu tokenisieren – in diesem Fall aus der ersten Szene von Monty Pythons „Holy Grail“.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit Python
Anleitung zur Übung
- Importiere die Funktionen
sent_tokenizeundword_tokenizeausnltk.tokenize. - Tokenisiere alle Sätze in
scene_onemit der Funktionsent_tokenize(). - Tokenisiere den vierten Satz in
sentences, den du alssentences[3]abrufen kannst, mit der Funktionword_tokenize(). - Ermittle die individuellen Tokens der gesamten Szene, indem du
word_tokenize()aufscene_oneanwendest und das Ergebnis anschließend mitset()in eine Menge umwandelst. - Gib die gefundenen individuellen Tokens aus. Das haben wir bereits für dich erledigt – klicke einfach auf "Antworten", um die Ergebnisse zu sehen!
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)