Erste SchritteKostenlos loslegen

Auswahl eines Tokenizers

Welches der folgenden Muster ist der beste Tokenizer für die folgende Zeichenkette? Wenn möglich, solltest du die Satzzeichen als separate Token beibehalten, aber '#1' als einzelnes Token behalten.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

Die Zeichenfolge ist in deinem Arbeitsbereich als my_string verfügbar, und die Muster wurden als pattern1, pattern2, pattern3 und pattern4 vorgeladen.

Außerdem wurde regexp_tokenize von nltk.tokenize importiert. Du kannst regexp_tokenize(string, pattern) mit my_string und einem der Muster als Argument verwenden, um selbst zu experimentieren und herauszufinden, welcher der beste Tokenizer ist.

Diese Übung ist Teil des Kurses

Einführung in die natürliche Sprachverarbeitung in Python

Kurs anzeigen

Interaktive Übung zum Anfassen

Setzen Sie die Theorie mit einer unserer interaktiven Übungen in die Tat um

Beginnen Sie mit dem Training