Treinar com LoRA
Você queria começar o fine-tuning com RLHF, mas continuava enfrentando erros de falta de memória. Mesmo após mudar para carregar o modelo em precisão de 8 bits, o erro persistiu. Para resolver isso, você decidiu dar o próximo passo e aplicar LoRA para um fine-tuning mais eficiente.
Os seguintes itens já foram pré-importados:
- O modelo carregado em precisão de 8 bits como
pretrained_model_8bit LoraConfigeget_peft_modeldepeftAutoModelForCausalLMWithValueHeaddetrl
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Instruções do exercício
- Defina o dropout do LoRA como
0.1e o tipo de bias como apenas lora. - Adicione a configuração do LoRA ao modelo.
- Configure o modelo com uma value head para treinamento com PPO.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Set the configuration parameters
config = LoraConfig(
r=32,
lora_alpha=32,
lora_dropout=____,
bias=____)
# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)