Einen Tokenizer auswählen
Welches der folgenden Muster ist für diesen String der beste Tokenizer? Wenn möglich, sollen Satzzeichen als eigene Tokens erhalten bleiben, aber '#1' soll ein einzelnes Token bleiben.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
Der String steht dir in deinem Workspace als my_string zur Verfügung, und die Muster wurden als pattern1, pattern2, pattern3 und pattern4 vorab geladen.
Außerdem wurde regexp_tokenize aus nltk.tokenize importiert. Du kannst regexp_tokenize(string, pattern) mit my_string und einem der Muster als Argumente verwenden, um selbst zu testen, welches der beste Tokenizer ist.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit Python
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten