Configurando o treinador de recompensa
Seu projeto continua e agora você tem os objetos model e config prontos para iniciar o treinamento do modelo de recompensa.
Os conjuntos de dados de treino e avaliação já foram carregados como train_data e eval_data. O RewardTrainer foi importado de trl.
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Instruções do exercício
- Inicialize o
RewardTrainer()atribuindo o modelo, o tokenizador, o conjunto de dados de treino, o conjunto de dados de avaliação e a configuração de recompensa aos seus atributos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)
# Initialize the reward trainer
trainer = ____