LoslegenKostenlos loslegen

Mit LoRA trainieren

Du wolltest mit dem RLHF-Fine-Tuning starten, bist aber immer wieder auf Out-of-Memory-Fehler gestoßen. Obwohl du das Modell in 8-Bit-Präzision geladen hast, blieb der Fehler bestehen. Um das zu lösen, gehst du einen Schritt weiter und setzt LoRA für effizienteres Fine-Tuning ein.

Folgendes wurde bereits vorab importiert:

  • Das in 8-Bit-Präzision geladene Modell als pretrained_model_8bit
  • LoraConfig und get_peft_model aus peft
  • AutoModelForCausalLMWithValueHead aus trl

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Kurs anzeigen

Anleitung zur Übung

  • Setze das LoRA-Dropout auf 0.1 und den Bias-Typ auf lora-only.
  • Füge die LoRA-Konfiguration dem Modell hinzu.
  • Richte das Modell mit einem Value Head für das PPO-Training ein.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Set the configuration parameters
config = LoraConfig(
    r=32,  
    lora_alpha=32,  
    lora_dropout=____,  
    bias=____)  

# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)
Code bearbeiten und ausführen