Configurando o treinador de recompensa
Seu projeto continua e agora você tem os objetos model e config prontos para iniciar o treinamento do modelo de recompensa.
Os conjuntos de dados de treino e avaliação já foram carregados como train_data e eval_data. O RewardTrainer foi importado de trl.
Este exercicio faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Instruções do exercicio
- Inicialize o
RewardTrainer()atribuindo o modelo, o tokenizador, o conjunto de dados de treino, o conjunto de dados de avaliação e a configuração de recompensa aos seus atributos.
exercicio interativo prático
Tente este exercicio completando este código de exemplo.
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)
# Initialize the reward trainer
trainer = ____