道练习

Token hóa một tập dữ liệu văn bản

Bạn đang thực hiện nghiên cứu thị trường cho một trang web du lịch và muốn dùng một tập dữ liệu hiện có để fine-tune một mô hình giúp bạn phân loại các đánh giá khách sạn. Bạn quyết định sử dụng thư viện datasets.

Lớp AutoTokenizer đã được nhập sẵn từ transformers, và load_dataset() đã được nhập sẵn từ datasets.

说明

100 XP

Thêm padding cho tokenizer để xử lý văn bản theo các batch có kích thước bằng nhau.
Token hóa dữ liệu văn bản bằng tokenizer GPT đã được huấn luyện sẵn và hàm đã định nghĩa.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}道练习

说明

道练习