Treinar com LoRA

Você queria começar o fine-tuning com RLHF, mas continuava enfrentando erros de falta de memória. Mesmo após mudar para carregar o modelo em precisão de 8 bits, o erro persistiu. Para resolver isso, você decidiu dar o próximo passo e aplicar LoRA para um fine-tuning mais eficiente.

Os seguintes itens já foram pré-importados:

O modelo carregado em precisão de 8 bits como pretrained_model_8bit
LoraConfig e get_peft_model de peft
AutoModelForCausalLMWithValueHead de trl

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Instruções do exercício

Defina o dropout do LoRA como 0.1 e o tipo de bias como apenas lora.
Adicione a configuração do LoRA ao modelo.
Configure o modelo com uma value head para treinamento com PPO.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Set the configuration parameters
config = LoraConfig(
    r=32,  
    lora_alpha=32,  
    lora_dropout=____,  
    bias=____)  

# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)

Editar e executar o código

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

AvançadoNível de habilidade

4.8+

Iniciar curso de graça

Este capítulo apresenta os fundamentos de Reinforcement Learning with Human Feedback (RLHF), uma técnica que usa a contribuição humana para ajudar modelos de IA a aprender de forma mais eficaz. Comece com RLHF entendendo como ele difere do aprendizado por reforço tradicional e por que o feedback humano pode aprimorar o desempenho da IA em diferentes domínios.

Exercise 1: Introdução ao RLHF Exercise 2: Geração de texto com RLHF Exercise 3: Classificando texto gerado para RLHF Exercise 4: RL vs. RLHF Exercise 5: Explorando LLMs pré-treinadas Exercise 6: Tokenizar um conjunto de dados de texto Exercise 7: Fine-tuning para classificação de avaliações Exercise 8: Preparando dados para RLHF Exercise 9: Preparando o conjunto de dados de preferências Exercise 10: Extraindo prompts

Descubra como configurar sistemas para coletar feedback humano neste capítulo. Aprenda boas práticas para coletar dados de alta qualidade — de comparações pareadas a amostragem por incerteza — e explore estratégias para potencializar sua coleta de dados.

Exercise 1: Métodos para coletar feedback de alta qualidade Exercise 2: Entendendo comparação e rating em RLHF Exercise 3: Comparando slogans para uma campanha de academia Exercise 4: Mensurando a qualidade e a relevância do feedback Exercise 5: Baixa confiança Exercise 6: K-means para agrupar feedbacks Exercise 7: Active learning Exercise 8: Implementando um pipeline de active learning Exercise 9: Loop de active learning

Neste capítulo, você vai entrar no núcleo do treinamento de Reinforcement Learning from Human Feedback. Isso inclui explorar fine-tuning com PPO, técnicas para treinar com eficiência e como lidar com possíveis divergências em relação aos objetivos das suas métricas.

Exercise 1: Explorando modelos de recompensa Exercise 2: Inicializando o reward Exercise 3: Configurando o treinador de recompensa Exercise 4: Treinando com PPO Exercise 5: Inicializar o treinador PPO Exercise 6: Ajuste fino com PPO Exercise 7: Ajuste fino eficiente em RLHF Exercise 8: Prepare para treinamento em 8 bits Exercise 9: Treinar com LoRA

Exercício atual

Explore técnicas essenciais para avaliar e melhorar o desempenho do modelo neste último capítulo de Reinforcement Learning from Human Feedback (RLHF): de métricas de fine-tuning à incorporação de fontes diversas de feedback, você terá um conjunto completo de ferramentas para refinar seus modelos com eficácia.

Exercise 1: Métricas do modelo e ajustes Exercise 2: Mitigando a divergência KL negativa Exercise 3: Verificando o modelo de recompensa Exercise 4: Incorporando fontes diversas de feedback Exercise 5: Votação por maioria em múltiplas fontes de dados Exercise 6: Identificação de fonte de dados não confiável Exercise 7: Avaliando modelos de RLHF Exercise 8: Interpretando curvas Exercise 9: Avaliando RLHF com métricas Exercise 10: Encerrando sua jornada em RLHF