Adafactor com Accelerator
Você já demonstrou um prova de conceito do Adafactor com o Trainer para treinar seu modelo de tradução de idioma com menor uso de memória. Agora você quer personalizar seu loop de treinamento usando o Accelerator. Construa o loop de treinamento para usar o Adafactor!
A função compute_optimizer_size() já foi definida. Alguns objetos de treinamento já foram carregados: model, train_dataloader e accelerator. Adafactor já foi importado de torch.optim.
Este exercicio faz parte do curso
Treinamento Eficiente de Modelos de IA com PyTorch
Instruções do exercicio
- Passe os parâmetros do modelo para o
Adafactorao definir ooptimizer. - Passe o estado do otimizador para imprimir o tamanho.
exercicio interativo prático
Tente este exercicio completando este código de exemplo.
# Pass the model parameters to Adafactor
optimizer = Adafactor(params=____.____())
model, optimizer, train_dataloader = accelerator.prepare(model, optimizer, train_dataloader)
for batch in train_dataloader:
inputs, targets = batch["input_ids"], batch["labels"]
outputs = model(inputs, labels=targets)
loss = outputs.loss
accelerator.backward(loss)
optimizer.step()
optimizer.zero_grad()
# Pass in the optimizer state
total_size_megabytes, total_num_elements = compute_optimizer_size(optimizer.state.____())
print(f"Number of optimizer parameters: {total_num_elements:,}\nOptimizer size: {total_size_megabytes:.0f} MB")