1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

Tokenization với ký tự ngoài ASCII

Trong bài này, bạn sẽ luyện tập tokenization nâng cao bằng cách tách từ một đoạn văn bản không dựa trên ASCII. Bạn sẽ làm việc với tiếng Đức kèm emoji!

Bạn có sẵn một chuỗi tên là german_text, đã được in sẵn trong Shell. Hãy chú ý các emoji và các ký tự tiếng Đức!

Các mô-đun sau đã được import trước từ nltk.tokenize: regexp_tokenize và word_tokenize.

Các dải unicode cho emoji là:

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), và ('\u2600'-\u26FF-\u2700-\u27BF').

Hướng dẫn

100 XP
  • Tách từ toàn bộ các từ trong german_text bằng word_tokenize(), và in kết quả.
  • Chỉ tách các từ viết hoa trong german_text.
    • Trước tiên, viết một mẫu tên capital_words để khớp chỉ các từ viết hoa. Hãy đảm bảo kiểm tra cả chữ cái tiếng Đức Ü! Để dùng ký tự này trong bài, hãy sao chép và dán nó từ phần hướng dẫn này.
    • Sau đó, tách từ bằng regexp_tokenize().
  • Chỉ tách các emoji trong german_text. Mẫu sử dụng các dải unicode cho emoji đã được cung cấp trong phần mô tả bài. Nhiệm vụ của bạn là dùng regexp_tokenize() để tách các emoji.