Tiền xử lý văn bản với AutoTokenizer

Bạn đang xây dựng một ứng dụng nông nghiệp chính xác để giúp nông dân đặt câu hỏi về các vấn đề họ gặp phải trên đồng ruộng. Bạn sẽ tận dụng một tập dữ liệu gồm các câu hỏi thường gặp và câu trả lời cho các vấn đề của nông dân; các trường trong tập dữ liệu này bao gồm

question: các câu hỏi nông nghiệp thường gặp
answers: câu trả lời cho các câu hỏi nông nghiệp

Bước đầu tiên trong huấn luyện phân tán, bạn sẽ bắt đầu bằng cách tiền xử lý tập dữ liệu văn bản này.

Một số dữ liệu đã được nạp sẵn:

dataset chứa một mẫu tập dữ liệu các câu hỏi và câu trả lời về nông nghiệp
AutoTokenizer đã được import từ transformers

Bài tập này là một phần của khóa học

Huấn luyện Mô hình AI Hiệu quả với PyTorch

Xem khóa học

Hướng dẫn bài tập

Tải tokenizer đã được huấn luyện trước.
Tokenize example["question"] bằng tokenizer.
Áp dụng hàm encode() lên dataset.

Bài tập tương tác thực hành trực tiếp

Hãy thử làm bài tập này bằng cách hoàn thành đoạn mã mẫu này.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)

Chỉnh sửa và Chạy Mã

Bài tập này là một phần của khóa học

Huấn luyện Mô hình AI Hiệu quả với PyTorch

SkillTag.level.advancedSkillTag.label

4.9+

Bắt đầu khóa học miễn phí

Bạn sẽ chuẩn bị dữ liệu cho huấn luyện phân tán bằng cách chia dữ liệu cho nhiều thiết bị và sao chép mô hình lên mỗi thiết bị. Accelerator cung cấp giao diện tiện lợi để chuẩn bị dữ liệu, và bạn sẽ học cách tiền xử lý ảnh, âm thanh, và văn bản như bước đầu tiên của huấn luyện phân tán.

Exercise 1: Chuẩn bị mô hình với AutoModel và Accelerator Exercise 2: Tải và kiểm tra mô hình đã huấn luyện sẵn Exercise 3: Tự động gán thiết bị với Accelerator Exercise 4: Tiền xử lý ảnh và âm thanh cho việc huấn luyện Exercise 5: Tiền xử lý tập dữ liệu hình ảnh Exercise 6: Tiền xử lý bộ dữ liệu âm thanh Exercise 7: Chuẩn bị tập dữ liệu cho huấn luyện phân tán Exercise 8: Tiền xử lý văn bản cho việc huấn luyện Exercise 9: Tiền xử lý văn bản với AutoTokenizer

Bài tập hiện tại

Exercise 10: Lưu và tải trạng thái của văn bản đã tiền xử lý

Trong huấn luyện phân tán, mỗi thiết bị huấn luyện song song trên phần dữ liệu của nó. Bạn sẽ tìm hiểu hai phương pháp để huấn luyện phân tán: Accelerator cho phép bạn viết vòng lặp huấn luyện tùy chỉnh, còn Trainer đơn giản hóa giao diện huấn luyện.

Exercise 1: Fine-tune mô hình với Trainer Exercise 2: Định nghĩa các metric đánh giá Exercise 3: Chỉ định TrainingArguments Exercise 4: Thiết lập Trainer Exercise 5: Huấn luyện mô hình với Accelerator Exercise 6: Chuẩn bị mô hình cho huấn luyện phân tán Exercise 7: Vòng lặp huấn luyện trước và sau khi dùng Accelerator Exercise 8: Xây dựng vòng lặp huấn luyện với Accelerator Exercise 9: Đánh giá mô hình với Accelerator Exercise 10: Đặt mô hình ở chế độ đánh giá Exercise 11: Ghi log các chỉ số đánh giá

Huấn luyện phân tán có thể gây áp lực lên tài nguyên với mô hình và bộ dữ liệu lớn, nhưng bạn có thể giải quyết bằng cách cải thiện sử dụng bộ nhớ, giao tiếp giữa thiết bị, và hiệu quả tính toán. Bạn sẽ khám phá các kỹ thuật tích lũy gradient, gradient checkpointing, local stochastic gradient descent, và huấn luyện độ chính xác hỗn hợp (mixed precision).

Exercise 1: Tích lũy gradient Exercise 2: Tích lũy gradient với Accelerator Exercise 3: Tích lũy gradient với Trainer Exercise 4: Gradient checkpointing và local SGD Exercise 5: Gradient checkpointing với Accelerator Exercise 6: Gradient checkpointing với Trainer Exercise 7: Local SGD với Accelerator Exercise 8: Huấn luyện độ chính xác hỗn hợp Exercise 9: Huấn luyện mixed precision với PyTorch cơ bản Exercise 10: Huấn luyện độ chính xác hỗn hợp với Accelerator Exercise 11: Huấn luyện độ chính xác hỗn hợp với Trainer

Bạn sẽ tập trung vào các bộ tối ưu (optimizer) như các đòn bẩy để cải thiện hiệu quả huấn luyện phân tán, làm rõ đánh đổi giữa AdamW, Adafactor, và 8-bit Adam. Giảm số lượng tham số hoặc dùng độ chính xác thấp giúp giảm mức sử dụng bộ nhớ của mô hình.

Exercise 1: Huấn luyện cân bằng với AdamW Exercise 2: AdamW với Trainer Exercise 3: AdamW với Accelerator Exercise 4: Tính kích thước của optimizer Exercise 5: Huấn luyện tiết kiệm bộ nhớ với Adafactor Exercise 6: Adafactor với Trainer Exercise 7: Adafactor với Accelerator Exercise 8: Huấn luyện độ chính xác hỗn hợp với 8-bit Adam Exercise 9: Thiết lập bộ tối ưu hóa Adam 8-bit Exercise 10: 8-bit Adam với Trainer Exercise 11: 8-bit Adam với Accelerator Exercise 12: Đó là optimizer nào?Exercise 13: Chúc mừng!