1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Huấn luyện Mô hình AI Hiệu quả với PyTorch

Connected

Bài tập

Local SGD với Accelerator

Bạn đã triển khai cộng dồn gradient (gradient accumulation) và gradient checkpointing để tối ưu việc sử dụng bộ nhớ cho mô hình dịch ngôn ngữ. Quá trình huấn luyện vẫn hơi chậm, nên bạn quyết định thêm local SGD vào vòng lặp huấn luyện để cải thiện hiệu quả giao tiếp giữa các thiết bị. Hãy xây dựng vòng lặp huấn luyện với local SGD!

model, train_dataloader và accelerator đã được định nghĩa sẵn, và LocalSGD đã được import.

Hướng dẫn

100 XP
  • Đặt local_sgd_steps để đồng bộ hóa gradient sau mỗi tám bước.
  • Gọi bước cho trình quản lý ngữ cảnh local SGD.