Inicializando o reward
Você está nos estágios finais de implantar um modelo generativo projetado para oferecer recomendações personalizadas para uma livraria online. Para alinhar esse modelo às recomendações preferidas por humanos, você precisa treinar um modelo de reward usando alguns dados de preferências coletados. O primeiro passo é inicializar o modelo e os parâmetros de configuração.
O AutoTokenizer e o AutoModelForSequenceClassification foram pré-carregados de transformers. RewardConfig foi pré-carregado de trl.
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Instruções do exercício
- Carregue o modelo GPT-1,
"openai-gpt", para a tarefa de classificação de sequência usando oAutoModelForSequenceClassificationdo Hugging Face. - Inicialize a configuração de reward usando
"output_dir"como o diretório de saída e defina o comprimento máximo de tokens como60.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the pre-trained GPT-1 model for text classification
model = ____
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)