Auswahl eines Tokenizers
Welches der folgenden Muster ist der beste Tokenizer für die folgende Zeichenkette? Wenn möglich, solltest du die Satzzeichen als separate Token beibehalten, aber '#1'
als einzelnes Token behalten.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
Die Zeichenfolge ist in deinem Arbeitsbereich als my_string
verfügbar, und die Muster wurden als pattern1
, pattern2
, pattern3
und pattern4
vorgeladen.
Außerdem wurde regexp_tokenize
von nltk.tokenize
importiert. Du kannst regexp_tokenize(string, pattern)
mit my_string
und einem der Muster als Argument verwenden, um selbst zu experimentieren und herauszufinden, welcher der beste Tokenizer ist.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Interaktive Übung zum Anfassen
Setzen Sie die Theorie mit einer unserer interaktiven Übungen in die Tat um
