Initialiser la récompense
Vous êtes sur le point de déployer un modèle génératif conçu pour proposer des recommandations personnalisées pour une librairie en ligne. Pour aligner ce modèle sur les recommandations préférées par les humains, vous devez entraîner un modèle de récompense à partir de données de préférences collectées. La première étape consiste à initialiser le modèle et les paramètres de configuration.
AutoTokenizer et AutoModelForSequenceClassification ont été préchargés depuis transformers. RewardConfig a été préchargé depuis trl.
Cet exercice fait partie du cours
Reinforcement Learning from Human Feedback (RLHF)
Instructions
- Chargez le modèle GPT-1,
"openai-gpt", pour la tâche de classification de séquences en utilisantAutoModelForSequenceClassificationde Hugging Face. - Initialisez la configuration du modèle de récompense en utilisant
"output_dir"comme répertoire de sortie et définissez la longueur maximale des jetons à60.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the pre-trained GPT-1 model for text classification
model = ____
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)