ComeçarComece de graça

Configurando o treinador de recompensa

Seu projeto continua e agora você tem os objetos model e config prontos para iniciar o treinamento do modelo de recompensa.

Os conjuntos de dados de treino e avaliação já foram carregados como train_data e eval_data. O RewardTrainer foi importado de trl.

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instruções do exercício

  • Inicialize o RewardTrainer() atribuindo o modelo, o tokenizador, o conjunto de dados de treino, o conjunto de dados de avaliação e a configuração de recompensa aos seus atributos.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)

# Initialize the reward trainer
trainer = ____
Editar e executar o código