or
Este exercício faz parte do curso
Você preparará os dados para o treinamento distribuído dividindo os dados em vários dispositivos e copiando o modelo em cada dispositivo. O Accelerator oferece uma interface conveniente para a preparação de dados, e você aprenderá a pré-processar imagens, áudio e texto como uma primeira etapa do treinamento distribuído.
No treinamento distribuído, cada dispositivo treina seus dados em paralelo. Você investigará dois métodos de treinamento distribuído: O Accelerator permite loops de treinamento personalizados, e o Trainer simplifica a interface de treinamento.
O treinamento distribuído sobrecarrega os recursos com modelos e conjuntos de dados grandes, mas você pode enfrentar esses desafios melhorando o uso da memória, a comunicação entre dispositivos e a eficiência computacional. Você descobrirá as técnicas de acumulação de gradiente, checkpointing de gradiente, descida de gradiente estocástica local e treinamento de precisão mista.
Você se concentrará nos otimizadores como alavancas para melhorar a eficiência do treinamento distribuído, destacando as compensações entre AdamW, Adafactor e Adam de 8 bits. Reduzir o número de parâmetros ou usar baixa precisão ajuda a diminuir o espaço de memória de um modelo.
Exercício atual