LoslegenKostenlos loslegen

Worttokenisierung mit NLTK

Hier arbeitest du mit der ersten Szene aus Monty Pythons „Holy Grail“, die als scene_one bereits geladen ist. Schau sie dir gern in der IPython Shell an!

Deine Aufgabe in dieser Übung ist es, word_tokenize und sent_tokenize aus nltk.tokenize zu nutzen, um sowohl Wörter als auch Sätze aus Python-Strings zu tokenisieren – in diesem Fall aus der ersten Szene von Monty Pythons „Holy Grail“.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Funktionen sent_tokenize und word_tokenize aus nltk.tokenize.
  • Tokenisiere alle Sätze in scene_one mit der Funktion sent_tokenize().
  • Tokenisiere den vierten Satz in sentences, den du als sentences[3] abrufen kannst, mit der Funktion word_tokenize().
  • Ermittle die individuellen Tokens der gesamten Szene, indem du word_tokenize() auf scene_one anwendest und das Ergebnis anschließend mit set() in eine Menge umwandelst.
  • Gib die gefundenen individuellen Tokens aus. Das haben wir bereits für dich erledigt – klicke einfach auf "Antworten", um die Ergebnisse zu sehen!

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)
Code bearbeiten und ausführen