Den Reward initialisieren
Du bist in den letzten Schritten, ein generatives Modell für personalisierte Empfehlungen in einem Online-Buchladen bereitzustellen. Damit die Empfehlungen den menschlichen Präferenzen entsprechen, musst du ein Reward-Modell mit den gesammelten Präferenzdaten trainieren. Der erste Schritt ist, das Modell und die Konfigurationsparameter zu initialisieren.
Der AutoTokenizer und AutoModelForSequenceClassification wurden aus transformers vorgeladen. RewardConfig wurde aus trl vorgeladen.
Diese Übung ist Teil des Kurses
Reinforcement Learning aus menschlichem Feedback (RLHF)
Anleitung zur Übung
- Lade das GPT-1-Modell
"openai-gpt"für die Sequenzklassifizierungsaufgabe mithilfe von Hugging FacesAutoModelForSequenceClassification. - Initialisiere die Reward-Konfiguration, verwende
"output_dir"als Ausgabeverzeichnis und setze die maximale Token-Länge auf60.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the pre-trained GPT-1 model for text classification
model = ____
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)