Initialiser l’entraîneur PPO
Vous travaillez pour une entreprise de service client qui utilise un chatbot pour traiter les demandes des clients. Le chatbot fournit des réponses utiles, mais vous avez récemment reçu des retours indiquant qu’elles manquent de profondeur. Vous devez affiner le modèle qui alimente le chatbot, et vous commencez par créer une instance d’entraîneur PPO.
Le dataset_cs a déjà été chargé.
Cet exercice fait partie du cours
Reinforcement Learning from Human Feedback (RLHF)
Instructions
- Initialisez la configuration PPO avec le nom de modèle
"gpt2"et un taux d’apprentissage de1.2e-5. - Chargez
AutoModelForCausalLMWithValueHead, le modèle de langage causal avec une tête de valeur. - Créez le
PPOTrainer()en utilisant le modèle, la configuration et le tokenizer que vous venez de définir, ainsi que le jeu de données déjà chargé.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from trl import PPOConfig, AutoModelForCausalLMWithValueHead, PPOTrainer
from transformers import AutoTokenizer
# Initialize PPO Configuration
gpt2_config = ____(model_name=____, learning_rate=____)
# Load the model
gpt2_model = ____(gpt2_config.model_name)
gpt2_tokenizer = AutoTokenizer.from_pretrained(gpt2_config.model_name)
# Initialize PPO Trainer
ppo_trainer = ____