Wort-Tokenisierung mit NLTK
Hier verwendest du die erste Szene von Monty Python's Holy Grail, die als scene_one
vorgeladen wurde. Du kannst es in der IPython Shell ausprobieren!
Deine Aufgabe in dieser Übung ist es, word_tokenize
und sent_tokenize
von nltk.tokenize
zu nutzen, um sowohl Wörter als auch Sätze aus Python-Strings zu tokenisieren - in diesem Fall die erste Szene von Monty Pythons Heiligem Gral.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Anleitung zur Übung
- Importiere die Funktionen
sent_tokenize
undword_tokenize
vonnltk.tokenize
. - Tokenisiere alle Sätze in
scene_one
mit der Funktionsent_tokenize()
. - Tokenisiere den vierten Satz in
sentences
, auf den du alssentences[3]
zugreifen kannst, indem du die Funktionword_tokenize()
benutzt. - Finde die einzigartigen Token in der gesamten Szene, indem du
word_tokenize()
aufscene_one
anwendest und sie dann mitset()
in eine Menge umwandelst. - Druckt die gefundenen eindeutigen Token aus. Das haben wir für dich getan, also klick auf "Antwort abschicken", um die Ergebnisse zu sehen!
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)