Inicializar la recompensa
Estás en las últimas fases de desplegar un modelo generativo diseñado para ofrecer recomendaciones personalizadas en una librería online. Para alinear este modelo con las recomendaciones preferidas por las personas, necesitas entrenar un modelo de recompensa usando algunos datos de preferencias recopilados. El primer paso es inicializar el modelo y los parámetros de configuración.
AutoTokenizer y AutoModelForSequenceClassification se precargaron desde transformers. RewardConfig se precargó desde trl.
Este ejercicio forma parte del curso
Reinforcement Learning from Human Feedback (RLHF)
Instrucciones del ejercicio
- Carga el modelo GPT-1,
"openai-gpt", para la tarea de clasificación de secuencias usandoAutoModelForSequenceClassificationde Hugging Face. - Inicializa la configuración de la recompensa usando
"output_dir"como directorio de salida y establece la longitud máxima de tokens en60.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load the pre-trained GPT-1 model for text classification
model = ____
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)