Mit LoRA trainieren
Du wolltest mit dem RLHF-Fine-Tuning starten, bist aber immer wieder auf Out-of-Memory-Fehler gestoßen. Obwohl du das Modell in 8-Bit-Präzision geladen hast, blieb der Fehler bestehen. Um das zu lösen, gehst du einen Schritt weiter und setzt LoRA für effizienteres Fine-Tuning ein.
Folgendes wurde bereits vorab importiert:
- Das in 8-Bit-Präzision geladene Modell als
pretrained_model_8bit LoraConfigundget_peft_modelauspeftAutoModelForCausalLMWithValueHeadaustrl
Diese Übung ist Teil des Kurses
Reinforcement Learning aus menschlichem Feedback (RLHF)
Anleitung zur Übung
- Setze das LoRA-Dropout auf
0.1und den Bias-Typ auf lora-only. - Füge die LoRA-Konfiguration dem Modell hinzu.
- Richte das Modell mit einem Value Head für das PPO-Training ein.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Set the configuration parameters
config = LoraConfig(
r=32,
lora_alpha=32,
lora_dropout=____,
bias=____)
# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)