CommencerCommencer gratuitement

Entraîner avec LoRA

Vous souhaitiez démarrer un affinement RLHF, mais vous rencontriez sans cesse des erreurs de mémoire insuffisante. Même après avoir chargé le modèle en précision 8 bits, l’erreur persistait. Pour y remédier, vous avez décidé de passer à l’étape suivante et d’appliquer LoRA pour un affinement plus efficace.

Les éléments suivants ont déjà été pré-importés :

  • Le modèle chargé en précision 8 bits sous le nom pretrained_model_8bit
  • LoraConfig et get_peft_model depuis peft
  • AutoModelForCausalLMWithValueHead depuis trl

Cet exercice fait partie du cours

Reinforcement Learning from Human Feedback (RLHF)

Afficher le cours

Instructions

  • Définissez le dropout LoRA à 0.1 et le type de biais sur lora-only.
  • Ajoutez la configuration LoRA au modèle.
  • Configurez le modèle avec une value head pour l’entraînement PPO.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Set the configuration parameters
config = LoraConfig(
    r=32,  
    lora_alpha=32,  
    lora_dropout=____,  
    bias=____)  

# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)
Modifier et exécuter le code