Den PPO-Trainer initialisieren
Du arbeitest für ein Kundenservice-Unternehmen, das einen Chatbot für Anfragen einsetzt. Der Chatbot liefert hilfreiche Antworten, aber jüngst kam das Feedback, dass ihnen die Tiefe fehlt. Du musst das Modell hinter dem Chatbot feinabstimmen und beginnst damit, eine PPO-Trainer-Instanz zu erstellen.
Das dataset_cs wurde bereits geladen.
Diese Übung ist Teil des Kurses
Reinforcement Learning aus menschlichem Feedback (RLHF)
Anleitung zur Übung
- Initialisiere die PPO-Konfiguration mit dem Modellnamen
"gpt2"und einer Lernrate von1.2e-5. - Lade
AutoModelForCausalLMWithValueHead, das kausale Sprachmodell mit Value-Head. - Erstelle den
PPOTrainer()mit dem so definierten Modell, der Konfiguration und dem Tokenizer sowie dem vorab geladenen Datensatz.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from trl import PPOConfig, AutoModelForCausalLMWithValueHead, PPOTrainer
from transformers import AutoTokenizer
# Initialize PPO Configuration
gpt2_config = ____(model_name=____, learning_rate=____)
# Load the model
gpt2_model = ____(gpt2_config.model_name)
gpt2_tokenizer = AutoTokenizer.from_pretrained(gpt2_config.model_name)
# Initialize PPO Trainer
ppo_trainer = ____