Configura el optimizador Adam de 8 bits
Estás viendo que el entrenamiento de tu modelo Transformer para traducción de lenguaje en tiempo real no está aprendiendo bien con Adafactor. Como alternativa, decides probar un optimizador Adam de 8 bits para reducir la memoria aproximadamente un 75 % en comparación con Adam.
La biblioteca bitsandbytes se ha importado como bnb, TrainingArguments se ha definido como args y optimizer_grouped_parameters ya está precargado. Ten en cuenta que el ejercicio imprime un mensaje de advertencia sobre libbitsandbytes_cpu.so, pero puedes ignorarlo para completar el ejercicio.
Este ejercicio forma parte del curso
Entrenamiento eficiente de modelos de IA con PyTorch
Instrucciones del ejercicio
- Instancia el optimizador Adam de 8 bits de la biblioteca
bitsandbytes. - Pasa los parámetros beta1 y beta2 al optimizador Adam de 8 bits.
- Pasa el parámetro epsilon al optimizador Adam de 8 bits.
- Imprime los parámetros de entrada del optimizador Adam de 8 bits.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Instantiate the 8-bit Adam optimizer
adam_bnb_optim = ____.____.____(optimizer_grouped_parameters,
# Pass in the beta1 and beta2 parameters
betas=(args.____, args.____),
# Pass in the epilson parameter
eps=args.____,
lr=args.learning_rate)
# Print the input parameters
print(f"beta1 = {args.____}")
print(f"beta2 = {args.____}")
print(f"epsilon = {args.____}")
print(f"learning_rate = {args.learning_rate}")