or
Este exercício faz parte do curso
Você vai preparar dados para treinamento distribuído dividindo o conjunto entre vários dispositivos e copiando o modelo em cada um deles. O Accelerator oferece uma interface prática para preparação de dados, e você vai aprender a pré-processar imagens, áudio e texto como primeiro passo no treinamento distribuído.
No treinamento distribuído, cada dispositivo treina em seu próprio conjunto de dados em paralelo. Você vai investigar dois métodos para treinamento distribuído: o Accelerator permite laços de treinamento personalizados, e o Trainer simplifica a interface de treinamento.
O treinamento distribuído exige muitos recursos com modelos e conjuntos de dados grandes, mas você pode enfrentar esses desafios melhorando o uso de memória, a comunicação entre dispositivos e a eficiência computacional. Você vai conhecer as técnicas de acumulação de gradiente, gradient checkpointing, local stochastic gradient descent e treinamento em precisão mista.
Você vai focar nos otimizadores como alavancas para melhorar a eficiência do treinamento distribuído, destacando os trade-offs entre AdamW, Adafactor e Adam de 8 bits. Reduzir o número de parâmetros ou usar baixa precisão ajuda a diminuir o consumo de memória de um modelo.
Exercício atual