Wybór tokenizatora

Dla poniższego ciągu znaków wskaż wzorzec, który najlepiej sprawdzi się jako tokenizator. Zależy ci na tym, aby znaki interpunkcyjne zdania pozostały oddzielnymi tokenami, a '#1' było traktowane jako jeden token.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

Ciąg znaków jest dostępny w twoim środowisku jako my_string, a wzorce zostały wstępnie załadowane odpowiednio jako pattern1, pattern2, pattern3 i pattern4.

Funkcja regexp_tokenize została zaimportowana z nltk.tokenize. Możesz wywołać regexp_tokenize(string, pattern) z my_string i wybranym wzorcem jako argumentami, aby samodzielnie sprawdzić, który tokenizator działa najlepiej.

Możliwe odpowiedzi

r"(\w+|\?|!)"

r"(\w+|#\d|\?|!)"

r"(#\d\w+\?!)"

r"\s+"

ćwiczenie

Wybór tokenizatora

Instrukcje

Możliwe odpowiedzi

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

Możliwe odpowiedzi

ćwiczenie