Inicializa el entrenador de PPO
Trabajas en una empresa de atención al cliente que utiliza un chatbot para gestionar consultas. El chatbot da respuestas útiles, pero recientemente recibiste comentarios de que les falta profundidad. Necesitas afinar el modelo detrás del chatbot, y empiezas creando una instancia del entrenador PPO.
El dataset_cs ya se ha cargado.
Este ejercicio forma parte del curso
Reinforcement Learning from Human Feedback (RLHF)
Instrucciones del ejercicio
- Inicializa la configuración de PPO con el nombre de modelo
"gpt2"y una tasa de aprendizaje de1.2e-5. - Carga
AutoModelForCausalLMWithValueHead, el modelo de lenguaje causal con una value head. - Crea el
PPOTrainer()usando el modelo, la configuración y el tokenizador que acabas de definir, y con el conjunto de datos precargado.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
from trl import PPOConfig, AutoModelForCausalLMWithValueHead, PPOTrainer
from transformers import AutoTokenizer
# Initialize PPO Configuration
gpt2_config = ____(model_name=____, learning_rate=____)
# Load the model
gpt2_model = ____(gpt2_config.model_name)
gpt2_tokenizer = AutoTokenizer.from_pretrained(gpt2_config.model_name)
# Initialize PPO Trainer
ppo_trainer = ____