1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Huấn luyện Mô hình AI Hiệu quả với PyTorch

Connected

Bài tập

Tiền xử lý văn bản với AutoTokenizer

Bạn đang xây dựng một ứng dụng nông nghiệp chính xác để giúp nông dân đặt câu hỏi về các vấn đề họ gặp phải trên đồng ruộng. Bạn sẽ tận dụng một tập dữ liệu gồm các câu hỏi thường gặp và câu trả lời cho các vấn đề của nông dân; các trường trong tập dữ liệu này bao gồm

  • question: các câu hỏi nông nghiệp thường gặp
  • answers: câu trả lời cho các câu hỏi nông nghiệp

Bước đầu tiên trong huấn luyện phân tán, bạn sẽ bắt đầu bằng cách tiền xử lý tập dữ liệu văn bản này.

Một số dữ liệu đã được nạp sẵn:

  • dataset chứa một mẫu tập dữ liệu các câu hỏi và câu trả lời về nông nghiệp
  • AutoTokenizer đã được import từ transformers

Hướng dẫn

100 XP
  • Tải tokenizer đã được huấn luyện trước.
  • Tokenize example["question"] bằng tokenizer.
  • Áp dụng hàm encode() lên dataset.