Einen Tokenizer auswählen
Welches der folgenden Muster ist für diesen String der beste Tokenizer? Wenn möglich, sollen Satzzeichen als eigene Tokens erhalten bleiben, aber '#1' soll ein einzelnes Token bleiben.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
Der String steht dir in deinem Workspace als my_string zur Verfügung, und die Muster wurden als pattern1, pattern2, pattern3 und pattern4 vorab geladen.
Außerdem wurde regexp_tokenize aus nltk.tokenize importiert. Du kannst regexp_tokenize(string, pattern) mit my_string und einem der Muster als Argumente verwenden, um selbst zu testen, welches der beste Tokenizer ist.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Natural Language Processing mit Python</Kurs>Interaktive praktische Übung
Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis
Übung starten