ComeçarComece de graça

Treinar com LoRA

Você queria começar o fine-tuning com RLHF, mas continuava enfrentando erros de falta de memória. Mesmo após mudar para carregar o modelo em precisão de 8 bits, o erro persistiu. Para resolver isso, você decidiu dar o próximo passo e aplicar LoRA para um fine-tuning mais eficiente.

Os seguintes itens já foram pré-importados:

  • O modelo carregado em precisão de 8 bits como pretrained_model_8bit
  • LoraConfig e get_peft_model de peft
  • AutoModelForCausalLMWithValueHead de trl

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instruções do exercício

  • Defina o dropout do LoRA como 0.1 e o tipo de bias como apenas lora.
  • Adicione a configuração do LoRA ao modelo.
  • Configure o modelo com uma value head para treinamento com PPO.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Set the configuration parameters
config = LoraConfig(
    r=32,  
    lora_alpha=32,  
    lora_dropout=____,  
    bias=____)  

# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)
Editar e executar o código