Inicializar o treinador PPO
Você trabalha em uma empresa de atendimento ao cliente que usa um chatbot para lidar com dúvidas dos clientes. O chatbot fornece respostas úteis, mas você recebeu recentemente o feedback de que elas têm pouca profundidade. Você precisa ajustar finamente o modelo por trás do chatbot e começa criando uma instância do treinador PPO.
O dataset_cs já foi carregado.
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Instruções do exercício
- Inicialize a configuração do PPO com o nome do modelo
"gpt2"e uma taxa de aprendizado de1.2e-5. - Carregue
AutoModelForCausalLMWithValueHead, o modelo de linguagem causal com uma "value head". - Crie o
PPOTrainer()usando o modelo, a configuração e o tokenizador recém-definidos, e com o conjunto de dados pré-carregado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from trl import PPOConfig, AutoModelForCausalLMWithValueHead, PPOTrainer
from transformers import AutoTokenizer
# Initialize PPO Configuration
gpt2_config = ____(model_name=____, learning_rate=____)
# Load the model
gpt2_model = ____(gpt2_config.model_name)
gpt2_tokenizer = AutoTokenizer.from_pretrained(gpt2_config.model_name)
# Initialize PPO Trainer
ppo_trainer = ____