Entraîner avec LoRA
Vous souhaitiez démarrer un affinement RLHF, mais vous rencontriez sans cesse des erreurs de mémoire insuffisante. Même après avoir chargé le modèle en précision 8 bits, l’erreur persistait. Pour y remédier, vous avez décidé de passer à l’étape suivante et d’appliquer LoRA pour un affinement plus efficace.
Les éléments suivants ont déjà été pré-importés :
- Le modèle chargé en précision 8 bits sous le nom
pretrained_model_8bit LoraConfigetget_peft_modeldepuispeftAutoModelForCausalLMWithValueHeaddepuistrl
Cet exercice fait partie du cours
Reinforcement Learning from Human Feedback (RLHF)
Instructions
- Définissez le dropout LoRA à
0.1et le type de biais sur lora-only. - Ajoutez la configuration LoRA au modèle.
- Configurez le modèle avec une value head pour l’entraînement PPO.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Set the configuration parameters
config = LoraConfig(
r=32,
lora_alpha=32,
lora_dropout=____,
bias=____)
# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)