Configurar el entrenador de recompensas
Tu proyecto continúa y ahora tienes los objetos model y config listos para empezar a entrenar el reward model.
Los conjuntos de datos de entrenamiento y evaluación se han precargado como train_data y eval_data. RewardTrainer se ha importado desde trl.
Este ejercicio forma parte del curso
Reinforcement Learning from Human Feedback (RLHF)
Instrucciones del ejercicio
- Inicializa
RewardTrainer()asignando el modelo, el tokenizador, el conjunto de datos de entrenamiento, el conjunto de datos de evaluación y la configuración de recompensa a sus atributos.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)
# Initialize the reward trainer
trainer = ____