LoslegenKostenlos loslegen

Einen Tokenizer auswählen

Welches der folgenden Muster ist für diesen String der beste Tokenizer? Wenn möglich, sollen Satzzeichen als eigene Tokens erhalten bleiben, aber '#1' soll ein einzelnes Token bleiben.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

Der String steht dir in deinem Workspace als my_string zur Verfügung, und die Muster wurden als pattern1, pattern2, pattern3 und pattern4 vorab geladen.

Außerdem wurde regexp_tokenize aus nltk.tokenize importiert. Du kannst regexp_tokenize(string, pattern) mit my_string und einem der Muster als Argumente verwenden, um selbst zu testen, welches der beste Tokenizer ist.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit Python

Kurs anzeigen

Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Übung starten