ComenzarEmpieza gratis

Inicializar la recompensa

Estás en las últimas fases de desplegar un modelo generativo diseñado para ofrecer recomendaciones personalizadas en una librería online. Para alinear este modelo con las recomendaciones preferidas por las personas, necesitas entrenar un modelo de recompensa usando algunos datos de preferencias recopilados. El primer paso es inicializar el modelo y los parámetros de configuración.

AutoTokenizer y AutoModelForSequenceClassification se precargaron desde transformers. RewardConfig se precargó desde trl.

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instrucciones del ejercicio

  • Carga el modelo GPT-1, "openai-gpt", para la tarea de clasificación de secuencias usando AutoModelForSequenceClassification de Hugging Face.
  • Inicializa la configuración de la recompensa usando "output_dir" como directorio de salida y establece la longitud máxima de tokens en 60.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load the pre-trained GPT-1 model for text classification
model = ____

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)
Editar y ejecutar código