Tích lũy gradient với Accelerator

Bạn đang huấn luyện một mô hình ngôn ngữ để đơn giản hóa bản dịch bằng cách diễn đạt lại các câu phức tạp, nhưng GPU của bạn bị thiếu bộ nhớ. Tích lũy gradient cho phép mô hình huấn luyện hiệu quả trên các lô dữ liệu lớn hơn bằng cách dùng các lô nhỏ vừa với bộ nhớ. Bạn muốn tự viết vòng lặp huấn luyện để thấy rõ cấu trúc, nên bạn đang dùng Accelerator. Lưu ý: bài tập này thực tế chạy trên CPU, nhưng mã cho GPU cũng giống hệt.

model, train_dataloader, optimizer và lr_scheduler đã được định nghĩa sẵn.

Bài tập này là một phần của khóa học

Huấn luyện Mô hình AI Hiệu quả với PyTorch

Xem khóa học

Hướng dẫn bài tập

Cấu hình Accelerator() để dùng tích lũy gradient với hai bước.
Thiết lập một context manager của Accelerator để bật tích lũy gradient cho model.

Bài tập tương tác thực hành trực tiếp

Hãy thử làm bài tập này bằng cách hoàn thành đoạn mã mẫu này.

# Configure Accelerator
accelerator = ____(____=____)
model, optimizer, train_dataloader, lr_scheduler = accelerator.prepare(model, optimizer, train_dataloader, lr_scheduler)
for batch in train_dataloader:
    # Set up an Accelerator context manager
    with ____.____(____):
        inputs, targets = batch["input_ids"], batch["labels"]
        outputs = model(inputs, labels=targets)
        loss = outputs.loss
        accelerator.backward(loss)
        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        print(f"Loss = {loss}")

Chỉnh sửa và Chạy Mã

Bài tập này là một phần của khóa học

Huấn luyện Mô hình AI Hiệu quả với PyTorch

SkillTag.level.advancedSkillTag.label

4.9+

Bắt đầu khóa học miễn phí

Bạn sẽ chuẩn bị dữ liệu cho huấn luyện phân tán bằng cách chia dữ liệu cho nhiều thiết bị và sao chép mô hình lên mỗi thiết bị. Accelerator cung cấp giao diện tiện lợi để chuẩn bị dữ liệu, và bạn sẽ học cách tiền xử lý ảnh, âm thanh, và văn bản như bước đầu tiên của huấn luyện phân tán.

Exercise 1: Chuẩn bị mô hình với AutoModel và Accelerator Exercise 2: Tải và kiểm tra mô hình đã huấn luyện sẵn Exercise 3: Tự động gán thiết bị với Accelerator Exercise 4: Tiền xử lý ảnh và âm thanh cho việc huấn luyện Exercise 5: Tiền xử lý tập dữ liệu hình ảnh Exercise 6: Tiền xử lý bộ dữ liệu âm thanh Exercise 7: Chuẩn bị tập dữ liệu cho huấn luyện phân tán Exercise 8: Tiền xử lý văn bản cho việc huấn luyện Exercise 9: Tiền xử lý văn bản với AutoTokenizer Exercise 10: Lưu và tải trạng thái của văn bản đã tiền xử lý

Trong huấn luyện phân tán, mỗi thiết bị huấn luyện song song trên phần dữ liệu của nó. Bạn sẽ tìm hiểu hai phương pháp để huấn luyện phân tán: Accelerator cho phép bạn viết vòng lặp huấn luyện tùy chỉnh, còn Trainer đơn giản hóa giao diện huấn luyện.

Exercise 1: Fine-tune mô hình với Trainer Exercise 2: Định nghĩa các metric đánh giá Exercise 3: Chỉ định TrainingArguments Exercise 4: Thiết lập Trainer Exercise 5: Huấn luyện mô hình với Accelerator Exercise 6: Chuẩn bị mô hình cho huấn luyện phân tán Exercise 7: Vòng lặp huấn luyện trước và sau khi dùng Accelerator Exercise 8: Xây dựng vòng lặp huấn luyện với Accelerator Exercise 9: Đánh giá mô hình với Accelerator Exercise 10: Đặt mô hình ở chế độ đánh giá Exercise 11: Ghi log các chỉ số đánh giá

Huấn luyện phân tán có thể gây áp lực lên tài nguyên với mô hình và bộ dữ liệu lớn, nhưng bạn có thể giải quyết bằng cách cải thiện sử dụng bộ nhớ, giao tiếp giữa thiết bị, và hiệu quả tính toán. Bạn sẽ khám phá các kỹ thuật tích lũy gradient, gradient checkpointing, local stochastic gradient descent, và huấn luyện độ chính xác hỗn hợp (mixed precision).

Exercise 1: Tích lũy gradient Exercise 2: Tích lũy gradient với Accelerator

Bài tập hiện tại

Exercise 3: Tích lũy gradient với Trainer Exercise 4: Gradient checkpointing và local SGD Exercise 5: Gradient checkpointing với Accelerator Exercise 6: Gradient checkpointing với Trainer Exercise 7: Local SGD với Accelerator Exercise 8: Huấn luyện độ chính xác hỗn hợp Exercise 9: Huấn luyện mixed precision với PyTorch cơ bản Exercise 10: Huấn luyện độ chính xác hỗn hợp với Accelerator Exercise 11: Huấn luyện độ chính xác hỗn hợp với Trainer

Bạn sẽ tập trung vào các bộ tối ưu (optimizer) như các đòn bẩy để cải thiện hiệu quả huấn luyện phân tán, làm rõ đánh đổi giữa AdamW, Adafactor, và 8-bit Adam. Giảm số lượng tham số hoặc dùng độ chính xác thấp giúp giảm mức sử dụng bộ nhớ của mô hình.

Exercise 1: Huấn luyện cân bằng với AdamW Exercise 2: AdamW với Trainer Exercise 3: AdamW với Accelerator Exercise 4: Tính kích thước của optimizer Exercise 5: Huấn luyện tiết kiệm bộ nhớ với Adafactor Exercise 6: Adafactor với Trainer Exercise 7: Adafactor với Accelerator Exercise 8: Huấn luyện độ chính xác hỗn hợp với 8-bit Adam Exercise 9: Thiết lập bộ tối ưu hóa Adam 8-bit Exercise 10: 8-bit Adam với Trainer Exercise 11: 8-bit Adam với Accelerator Exercise 12: Đó là optimizer nào?Exercise 13: Chúc mừng!