Den Reward initialisieren
Du bist in den letzten Schritten, ein generatives Modell für personalisierte Empfehlungen in einem Online-Buchladen bereitzustellen. Damit die Empfehlungen den menschlichen Präferenzen entsprechen, musst du ein Reward-Modell mit den gesammelten Präferenzdaten trainieren. Der erste Schritt ist, das Modell und die Konfigurationsparameter zu initialisieren.
Der AutoTokenizer und AutoModelForSequenceClassification wurden aus transformers vorgeladen. RewardConfig wurde aus trl vorgeladen.
Diese Übung ist Teil des Kurses
<Kurs>Reinforcement Learning aus menschlichem Feedback (RLHF)</Kurs>Übungsanweisungen
- Lade das GPT-1-Modell
"openai-gpt"für die Sequenzklassifizierungsaufgabe mithilfe von Hugging FacesAutoModelForSequenceClassification. - Initialisiere die Reward-Konfiguration, verwende
"output_dir"als Ausgabeverzeichnis und setze die maximale Token-Länge auf60.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load the pre-trained GPT-1 model for text classification
model = ____
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)