LoslegenKostenlos starten

Einen Tokenizer auswählen

Welches der folgenden Muster ist für diesen String der beste Tokenizer? Wenn möglich, sollen Satzzeichen als eigene Tokens erhalten bleiben, aber '#1' soll ein einzelnes Token bleiben.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

Der String steht dir in deinem Workspace als my_string zur Verfügung, und die Muster wurden als pattern1, pattern2, pattern3 und pattern4 vorab geladen.

Außerdem wurde regexp_tokenize aus nltk.tokenize importiert. Du kannst regexp_tokenize(string, pattern) mit my_string und einem der Muster als Argumente verwenden, um selbst zu testen, welches der beste Tokenizer ist.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit Python</Kurs>
Kurs ansehen

Interaktive praktische Übung

Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis

Übung starten