1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

Token hóa một tập dữ liệu văn bản

Bạn đang thực hiện nghiên cứu thị trường cho một trang web du lịch và muốn dùng một tập dữ liệu hiện có để fine-tune một mô hình giúp bạn phân loại các đánh giá khách sạn. Bạn quyết định sử dụng thư viện datasets.

Lớp AutoTokenizer đã được nhập sẵn từ transformers, và load_dataset() đã được nhập sẵn từ datasets.

Hướng dẫn

100 XP
  • Thêm padding cho tokenizer để xử lý văn bản theo các batch có kích thước bằng nhau.
  • Token hóa dữ liệu văn bản bằng tokenizer GPT đã được huấn luyện sẵn và hàm đã định nghĩa.