LoslegenKostenlos loslegen

Den Reward initialisieren

Du bist in den letzten Schritten, ein generatives Modell für personalisierte Empfehlungen in einem Online-Buchladen bereitzustellen. Damit die Empfehlungen den menschlichen Präferenzen entsprechen, musst du ein Reward-Modell mit den gesammelten Präferenzdaten trainieren. Der erste Schritt ist, das Modell und die Konfigurationsparameter zu initialisieren.

Der AutoTokenizer und AutoModelForSequenceClassification wurden aus transformers vorgeladen. RewardConfig wurde aus trl vorgeladen.

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Kurs anzeigen

Anleitung zur Übung

  • Lade das GPT-1-Modell "openai-gpt" für die Sequenzklassifizierungsaufgabe mithilfe von Hugging Faces AutoModelForSequenceClassification.
  • Initialisiere die Reward-Konfiguration, verwende "output_dir" als Ausgabeverzeichnis und setze die maximale Token-Länge auf 60.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the pre-trained GPT-1 model for text classification
model = ____

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)
Code bearbeiten und ausführen