Você está descobrindo que o treinamento do modelo do Transformer para tradução de idiomas em tempo real não está sendo eficaz com o Adafactor. Como alternativa, você decide experimentar um otimizador Adam de 8 bits para reduzir a memória em aproximadamente 75% em comparação com o Adam.

A biblioteca bitsandbytes foi importada como bnb, TrainingArguments foi definida como args e optimizer_grouped_parameters foi pré-carregada. Observe que o exercício imprime uma mensagem de aviso sobre libbitsandbytes_cpu.so, mas você pode ignorar esse aviso para concluir o exercício.

Parabéns!

Create Your Free Account