1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm việc với Hugging Face

Connected

Bài tập

Tách token văn bản với AutoTokenizer

AutoTokenizer giúp đơn giản hóa bước chuẩn bị văn bản bằng cách tự động xử lý làm sạch, chuẩn hóa và tách token. Công cụ này đảm bảo văn bản được xử lý đúng như mô hình mong đợi.

Trong bài tập này, bạn sẽ khám phá cách AutoTokenizer biến văn bản thành các token sẵn sàng cho các tác vụ Machine Learning.

Hướng dẫn

100 XP
  • Import lớp cần thiết từ transformers, load tokenizer bằng phương thức phù hợp, và tách văn bản đầu vào thành các token.