LoslegenKostenlos loslegen

Den PPO-Trainer initialisieren

Du arbeitest für ein Kundenservice-Unternehmen, das einen Chatbot für Anfragen einsetzt. Der Chatbot liefert hilfreiche Antworten, aber jüngst kam das Feedback, dass ihnen die Tiefe fehlt. Du musst das Modell hinter dem Chatbot feinabstimmen und beginnst damit, eine PPO-Trainer-Instanz zu erstellen.

Das dataset_cs wurde bereits geladen.

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Kurs anzeigen

Anleitung zur Übung

  • Initialisiere die PPO-Konfiguration mit dem Modellnamen "gpt2" und einer Lernrate von 1.2e-5.
  • Lade AutoModelForCausalLMWithValueHead, das kausale Sprachmodell mit Value-Head.
  • Erstelle den PPOTrainer() mit dem so definierten Modell, der Konfiguration und dem Tokenizer sowie dem vorab geladenen Datensatz.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from trl import PPOConfig, AutoModelForCausalLMWithValueHead, PPOTrainer
from transformers import AutoTokenizer

# Initialize PPO Configuration
gpt2_config = ____(model_name=____, learning_rate=____)

# Load the model
gpt2_model = ____(gpt2_config.model_name)
gpt2_tokenizer = AutoTokenizer.from_pretrained(gpt2_config.model_name)

# Initialize PPO Trainer
ppo_trainer = ____
Code bearbeiten und ausführen