Mit LoRA trainieren

Du wolltest mit dem RLHF-Fine-Tuning starten, bist aber immer wieder auf Out-of-Memory-Fehler gestoßen. Obwohl du das Modell in 8-Bit-Präzision geladen hast, blieb der Fehler bestehen. Um das zu lösen, gehst du einen Schritt weiter und setzt LoRA für effizienteres Fine-Tuning ein.

Folgendes wurde bereits vorab importiert:

Das in 8-Bit-Präzision geladene Modell als pretrained_model_8bit
LoraConfig und get_peft_model aus peft
AutoModelForCausalLMWithValueHead aus trl

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Anleitung zur Übung

Setze das LoRA-Dropout auf 0.1 und den Bias-Typ auf lora-only.
Füge die LoRA-Konfiguration dem Modell hinzu.
Richte das Modell mit einem Value Head für das PPO-Training ein.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Set the configuration parameters
config = LoraConfig(
    r=32,  
    lora_alpha=32,  
    lora_dropout=____,  
    bias=____)  

# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Dieses Kapitel führt in die Grundlagen von Reinforcement Learning aus menschlichem Feedback (RLHF) ein – eine Technik, die menschliche Rückmeldungen nutzt, damit KI-Modelle effektiver lernen. Starte mit RLHF, indem du verstehst, wie es sich vom klassischen Reinforcement Learning unterscheidet und warum menschliches Feedback die KI-Leistung in verschiedenen Bereichen steigern kann.

Exercise 1: Einführung in RLHF Exercise 2: Textgenerierung mit RLHF Exercise 3: Generierten Text für RLHF klassifizieren Exercise 4: RL vs. RLHF Exercise 5: Vortrainierte LLMs erkunden Exercise 6: Einen Textdatensatz tokenisieren Exercise 7: Feinabstimmung für die Review-Klassifikation Exercise 8: Daten für RLHF vorbereiten Exercise 9: Den Präferenzdatensatz vorbereiten Exercise 10: Prompts extrahieren

Erfahre in diesem Kapitel, wie du Systeme für das Sammeln von menschlichem Feedback aufsetzt. Lerne Best Practices für das Erheben hochwertiger Daten – von paarweisen Vergleichen bis hin zu Uncertainty Sampling – und entdecke Strategien, um deine Datenerhebung zu verbessern.

Exercise 1: Methoden für hochwertiges Feedback-Sammeln Exercise 2: Vergleich und Bewertung in RLHF verstehen Exercise 3: Slogans für eine Fitnessstudio-Kampagne vergleichen Exercise 4: Qualität und Relevanz von Feedback messen Exercise 5: Geringe Sicherheit Exercise 6: K-Means für Feedback-Clustering Exercise 7: Aktives Lernen Exercise 8: Eine Active-Learning-Pipeline implementieren Exercise 9: Active-Learning-Schleife

In diesem Kapitel tauchst du in den Kern des Trainings mit Reinforcement Learning aus menschlichem Feedback ein. Dazu gehören Fine-Tuning mit PPO, effiziente Trainingsmethoden und der Umgang mit möglichen Abweichungen von den Zielgrößen deiner Metriken.

Exercise 1: Reward-Modelle im Detail Exercise 2: Den Reward initialisieren Exercise 3: Den Reward Trainer einrichten Exercise 4: Training mit PPO Exercise 5: Den PPO-Trainer initialisieren Exercise 6: PPO-Finetuning Exercise 7: Effizientes Finetuning in RLHF Exercise 8: Für 8-Bit-Training vorbereiten Exercise 9: Mit LoRA trainieren

Aktuelle Übung

Entdecke in diesem letzten Kapitel zu Reinforcement Learning aus menschlichem Feedback (RLHF) zentrale Techniken zur Bewertung und Verbesserung der Modellleistung: von Fine-Tuning-Metriken bis zur Einbindung vielfältiger Feedbackquellen erhältst du ein umfassendes Toolkit, um deine Modelle gezielt zu verfeinern.

Exercise 1: Modellmetriken und Anpassungen Exercise 2: Negative KL-Divergenz abmildern Exercise 3: Das Reward-Modell überprüfen Exercise 4: Verschiedene Feedbackquellen einbinden Exercise 5: Mehrheitsvoting über mehrere Datenquellen Exercise 6: Unzuverlässige Datenquelle identifizieren Exercise 7: RLHF-Modelle bewerten Exercise 8: Kurven interpretieren Exercise 9: RLHF mit Metriken bewerten Exercise 10: Zum Abschluss deiner RLHF-Reise