Wort-Tokenisierung mit NLTK
Hier verwendest du die erste Szene von Monty Python's Holy Grail, die als scene_one vorgeladen wurde. Du kannst es in der IPython Shell ausprobieren!
Deine Aufgabe in dieser Übung ist es, word_tokenize und sent_tokenize von nltk.tokenize zu nutzen, um sowohl Wörter als auch Sätze aus Python-Strings zu tokenisieren - in diesem Fall die erste Szene von Monty Pythons Heiligem Gral.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Anleitung zur Übung
- Importiere die Funktionen
sent_tokenizeundword_tokenizevonnltk.tokenize. - Tokenisiere alle Sätze in
scene_onemit der Funktionsent_tokenize(). - Tokenisiere den vierten Satz in
sentences, auf den du alssentences[3]zugreifen kannst, indem du die Funktionword_tokenize()benutzt. - Finde die einzigartigen Token in der gesamten Szene, indem du
word_tokenize()aufscene_oneanwendest und sie dann mitset()in eine Menge umwandelst. - Druckt die gefundenen eindeutigen Token aus. Das haben wir für dich getan, also klick auf "Antwort abschicken", um die Ergebnisse zu sehen!
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)