Inicializando o reward

Você está nos estágios finais de implantar um modelo generativo projetado para oferecer recomendações personalizadas para uma livraria online. Para alinhar esse modelo às recomendações preferidas por humanos, você precisa treinar um modelo de reward usando alguns dados de preferências coletados. O primeiro passo é inicializar o modelo e os parâmetros de configuração.

O AutoTokenizer e o AutoModelForSequenceClassification foram pré-carregados de transformers. RewardConfig foi pré-carregado de trl.

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Instruções do exercício

Carregue o modelo GPT-1, "openai-gpt", para a tarefa de classificação de sequência usando o AutoModelForSequenceClassification do Hugging Face.
Inicialize a configuração de reward usando "output_dir" como o diretório de saída e defina o comprimento máximo de tokens como 60.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the pre-trained GPT-1 model for text classification
model = ____

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)

Editar e executar o código

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

AvançadoNível de habilidade

4.8+

Iniciar curso de graça

Este capítulo apresenta os fundamentos de Reinforcement Learning with Human Feedback (RLHF), uma técnica que usa a contribuição humana para ajudar modelos de IA a aprender de forma mais eficaz. Comece com RLHF entendendo como ele difere do aprendizado por reforço tradicional e por que o feedback humano pode aprimorar o desempenho da IA em diferentes domínios.

Exercise 1: Introdução ao RLHF Exercise 2: Geração de texto com RLHF Exercise 3: Classificando texto gerado para RLHF Exercise 4: RL vs. RLHF Exercise 5: Explorando LLMs pré-treinadas Exercise 6: Tokenizar um conjunto de dados de texto Exercise 7: Fine-tuning para classificação de avaliações Exercise 8: Preparando dados para RLHF Exercise 9: Preparando o conjunto de dados de preferências Exercise 10: Extraindo prompts

Descubra como configurar sistemas para coletar feedback humano neste capítulo. Aprenda boas práticas para coletar dados de alta qualidade — de comparações pareadas a amostragem por incerteza — e explore estratégias para potencializar sua coleta de dados.

Exercise 1: Métodos para coletar feedback de alta qualidade Exercise 2: Entendendo comparação e rating em RLHF Exercise 3: Comparando slogans para uma campanha de academia Exercise 4: Mensurando a qualidade e a relevância do feedback Exercise 5: Baixa confiança Exercise 6: K-means para agrupar feedbacks Exercise 7: Active learning Exercise 8: Implementando um pipeline de active learning Exercise 9: Loop de active learning

Neste capítulo, você vai entrar no núcleo do treinamento de Reinforcement Learning from Human Feedback. Isso inclui explorar fine-tuning com PPO, técnicas para treinar com eficiência e como lidar com possíveis divergências em relação aos objetivos das suas métricas.

Exercise 1: Explorando modelos de recompensa Exercise 2: Inicializando o reward

Exercício atual

Exercise 3: Configurando o treinador de recompensa Exercise 4: Treinando com PPO Exercise 5: Inicializar o treinador PPO Exercise 6: Ajuste fino com PPO Exercise 7: Ajuste fino eficiente em RLHF Exercise 8: Prepare para treinamento em 8 bits Exercise 9: Treinar com LoRA

Explore técnicas essenciais para avaliar e melhorar o desempenho do modelo neste último capítulo de Reinforcement Learning from Human Feedback (RLHF): de métricas de fine-tuning à incorporação de fontes diversas de feedback, você terá um conjunto completo de ferramentas para refinar seus modelos com eficácia.

Exercise 1: Métricas do modelo e ajustes Exercise 2: Mitigando a divergência KL negativa Exercise 3: Verificando o modelo de recompensa Exercise 4: Incorporando fontes diversas de feedback Exercise 5: Votação por maioria em múltiplas fontes de dados Exercise 6: Identificação de fonte de dados não confiável Exercise 7: Avaliando modelos de RLHF Exercise 8: Interpretando curvas Exercise 9: Avaliando RLHF com métricas Exercise 10: Encerrando sua jornada em RLHF