Erste SchritteKostenlos loslegen

Wort-Tokenisierung mit NLTK

Hier verwendest du die erste Szene von Monty Python's Holy Grail, die als scene_one vorgeladen wurde. Du kannst es in der IPython Shell ausprobieren!

Deine Aufgabe in dieser Übung ist es, word_tokenize und sent_tokenize von nltk.tokenize zu nutzen, um sowohl Wörter als auch Sätze aus Python-Strings zu tokenisieren - in diesem Fall die erste Szene von Monty Pythons Heiligem Gral.

Diese Übung ist Teil des Kurses

Einführung in die natürliche Sprachverarbeitung in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Funktionen sent_tokenize und word_tokenize von nltk.tokenize.
  • Tokenisiere alle Sätze in scene_one mit der Funktion sent_tokenize().
  • Tokenisiere den vierten Satz in sentences, auf den du als sentences[3] zugreifen kannst, indem du die Funktion word_tokenize() benutzt.
  • Finde die einzigartigen Token in der gesamten Szene, indem du word_tokenize() auf scene_one anwendest und sie dann mit set() in eine Menge umwandelst.
  • Druckt die gefundenen eindeutigen Token aus. Das haben wir für dich getan, also klick auf "Antwort abschicken", um die Ergebnisse zu sehen!

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)
Bearbeiten und Ausführen von Code