ComenzarEmpieza gratis

Configurar el entrenador de recompensas

Tu proyecto continúa y ahora tienes los objetos model y config listos para empezar a entrenar el reward model.

Los conjuntos de datos de entrenamiento y evaluación se han precargado como train_data y eval_data. RewardTrainer se ha importado desde trl.

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instrucciones del ejercicio

  • Inicializa RewardTrainer() asignando el modelo, el tokenizador, el conjunto de datos de entrenamiento, el conjunto de datos de evaluación y la configuración de recompensa a sus atributos.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)

# Initialize the reward trainer
trainer = ____
Editar y ejecutar código