ComenzarEmpieza gratis

Inicializa el entrenador de PPO

Trabajas en una empresa de atención al cliente que utiliza un chatbot para gestionar consultas. El chatbot da respuestas útiles, pero recientemente recibiste comentarios de que les falta profundidad. Necesitas afinar el modelo detrás del chatbot, y empiezas creando una instancia del entrenador PPO.

El dataset_cs ya se ha cargado.

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instrucciones del ejercicio

  • Inicializa la configuración de PPO con el nombre de modelo "gpt2" y una tasa de aprendizaje de 1.2e-5.
  • Carga AutoModelForCausalLMWithValueHead, el modelo de lenguaje causal con una value head.
  • Crea el PPOTrainer() usando el modelo, la configuración y el tokenizador que acabas de definir, y con el conjunto de datos precargado.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

from trl import PPOConfig, AutoModelForCausalLMWithValueHead, PPOTrainer
from transformers import AutoTokenizer

# Initialize PPO Configuration
gpt2_config = ____(model_name=____, learning_rate=____)

# Load the model
gpt2_model = ____(gpt2_config.model_name)
gpt2_tokenizer = AutoTokenizer.from_pretrained(gpt2_config.model_name)

# Initialize PPO Trainer
ppo_trainer = ____
Editar y ejecutar código