Chọn bộ tách từ (tokenizer)

Với chuỗi sau, pattern nào dưới đây là bộ tách từ tốt nhất? Nếu có thể, bạn muốn giữ dấu câu của câu như các token riêng, nhưng '#1' phải được giữ là một token duy nhất.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

Chuỗi đã có sẵn trong workspace của bạn dưới tên my_string, và các pattern đã được nạp trước là pattern1, pattern2, pattern3, và pattern4.

Ngoài ra, regexp_tokenize đã được import từ nltk.tokenize. Bạn có thể dùng regexp_tokenize(string, pattern) với my_string và một trong các pattern làm đối số để tự thử nghiệm và xem pattern nào là bộ tách từ tốt nhất.

Các phương án trả lời

r"(\w+|\?|!)"

r"(\w+|#\d|\?|!)"

r"(#\d\w+\?!)"

r"\s+"

Bài tập

Chọn bộ tách từ (tokenizer)

Hướng dẫn

Các phương án trả lời

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Các phương án trả lời

Bài tập