ComeçarComece de graça

Inicializando o reward

Você está nos estágios finais de implantar um modelo generativo projetado para oferecer recomendações personalizadas para uma livraria online. Para alinhar esse modelo às recomendações preferidas por humanos, você precisa treinar um modelo de reward usando alguns dados de preferências coletados. O primeiro passo é inicializar o modelo e os parâmetros de configuração.

O AutoTokenizer e o AutoModelForSequenceClassification foram pré-carregados de transformers. RewardConfig foi pré-carregado de trl.

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instruções do exercício

  • Carregue o modelo GPT-1, "openai-gpt", para a tarefa de classificação de sequência usando o AutoModelForSequenceClassification do Hugging Face.
  • Inicialize a configuração de reward usando "output_dir" como o diretório de saída e defina o comprimento máximo de tokens como 60.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the pre-trained GPT-1 model for text classification
model = ____

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)
Editar e executar o código