LoslegenKostenlos starten

Den Reward initialisieren

Du bist in den letzten Schritten, ein generatives Modell für personalisierte Empfehlungen in einem Online-Buchladen bereitzustellen. Damit die Empfehlungen den menschlichen Präferenzen entsprechen, musst du ein Reward-Modell mit den gesammelten Präferenzdaten trainieren. Der erste Schritt ist, das Modell und die Konfigurationsparameter zu initialisieren.

Der AutoTokenizer und AutoModelForSequenceClassification wurden aus transformers vorgeladen. RewardConfig wurde aus trl vorgeladen.

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning aus menschlichem Feedback (RLHF)</Kurs>
Kurs ansehen

Übungsanweisungen

  • Lade das GPT-1-Modell "openai-gpt" für die Sequenzklassifizierungsaufgabe mithilfe von Hugging Faces AutoModelForSequenceClassification.
  • Initialisiere die Reward-Konfiguration, verwende "output_dir" als Ausgabeverzeichnis und setze die maximale Token-Länge auf 60.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load the pre-trained GPT-1 model for text classification
model = ____

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)
Code bearbeiten und ausführen