ComeçarComece de graça

Inicializar o treinador PPO

Você trabalha em uma empresa de atendimento ao cliente que usa um chatbot para lidar com dúvidas dos clientes. O chatbot fornece respostas úteis, mas você recebeu recentemente o feedback de que elas têm pouca profundidade. Você precisa ajustar finamente o modelo por trás do chatbot e começa criando uma instância do treinador PPO.

O dataset_cs já foi carregado.

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instruções do exercício

  • Inicialize a configuração do PPO com o nome do modelo "gpt2" e uma taxa de aprendizado de 1.2e-5.
  • Carregue AutoModelForCausalLMWithValueHead, o modelo de linguagem causal com uma "value head".
  • Crie o PPOTrainer() usando o modelo, a configuração e o tokenizador recém-definidos, e com o conjunto de dados pré-carregado.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from trl import PPOConfig, AutoModelForCausalLMWithValueHead, PPOTrainer
from transformers import AutoTokenizer

# Initialize PPO Configuration
gpt2_config = ____(model_name=____, learning_rate=____)

# Load the model
gpt2_model = ____(gpt2_config.model_name)
gpt2_tokenizer = AutoTokenizer.from_pretrained(gpt2_config.model_name)

# Initialize PPO Trainer
ppo_trainer = ____
Editar e executar o código