Prepare para treinamento em 8 bits

Você queria começar o fine-tuning com RLHF, mas continuou esbarrando em erros de falta de memória. Para resolver isso, você decidiu mudar para precisão de 8 bits, o que permite um fine-tuning mais eficiente, aproveitando a biblioteca peft da Hugging Face.

Os seguintes itens já foram importados:

AutoModelForCausalLM de transformers
prepare_model_for_int8_training de peft
AutoModelForCausalLMWithValueHead de trl

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Instruções do exercício

Carregue o modelo pré-treinado e inclua o parâmetro para precisão de 8 bits.
Use a função prepare_model_for_int8_training para deixar o modelo pronto para o fine-tuning baseado em LoRA.
Carregue o modelo com um value head para o treinamento com PPO.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

model_name = "gpt2"  

# Load the model in 8-bit precision
pretrained_model = AutoModelForCausalLM.from_pretrained(
                                                       model_name, 
                                                       ____=True
                                                      )

# Prepare the model for fine-tuning
pretrained_model_8bit = ____(pretrained_model)

# Load the model with a value head
model = ____.from_pretrained(pretrained_model_8bit)

Editar e executar o código

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

AvançadoNível de habilidade

4.8+

Iniciar curso de graça

Este capítulo apresenta os fundamentos de Reinforcement Learning with Human Feedback (RLHF), uma técnica que usa a contribuição humana para ajudar modelos de IA a aprender de forma mais eficaz. Comece com RLHF entendendo como ele difere do aprendizado por reforço tradicional e por que o feedback humano pode aprimorar o desempenho da IA em diferentes domínios.

Exercise 1: Introdução ao RLHF Exercise 2: Geração de texto com RLHF Exercise 3: Classificando texto gerado para RLHF Exercise 4: RL vs. RLHF Exercise 5: Explorando LLMs pré-treinadas Exercise 6: Tokenizar um conjunto de dados de texto Exercise 7: Fine-tuning para classificação de avaliações Exercise 8: Preparando dados para RLHF Exercise 9: Preparando o conjunto de dados de preferências Exercise 10: Extraindo prompts

Descubra como configurar sistemas para coletar feedback humano neste capítulo. Aprenda boas práticas para coletar dados de alta qualidade — de comparações pareadas a amostragem por incerteza — e explore estratégias para potencializar sua coleta de dados.

Exercise 1: Métodos para coletar feedback de alta qualidade Exercise 2: Entendendo comparação e rating em RLHF Exercise 3: Comparando slogans para uma campanha de academia Exercise 4: Mensurando a qualidade e a relevância do feedback Exercise 5: Baixa confiança Exercise 6: K-means para agrupar feedbacks Exercise 7: Active learning Exercise 8: Implementando um pipeline de active learning Exercise 9: Loop de active learning

Neste capítulo, você vai entrar no núcleo do treinamento de Reinforcement Learning from Human Feedback. Isso inclui explorar fine-tuning com PPO, técnicas para treinar com eficiência e como lidar com possíveis divergências em relação aos objetivos das suas métricas.

Exercise 1: Explorando modelos de recompensa Exercise 2: Inicializando o reward Exercise 3: Configurando o treinador de recompensa Exercise 4: Treinando com PPO Exercise 5: Inicializar o treinador PPO Exercise 6: Ajuste fino com PPO Exercise 7: Ajuste fino eficiente em RLHF Exercise 8: Prepare para treinamento em 8 bits

Exercício atual

Exercise 9: Treinar com LoRA

Explore técnicas essenciais para avaliar e melhorar o desempenho do modelo neste último capítulo de Reinforcement Learning from Human Feedback (RLHF): de métricas de fine-tuning à incorporação de fontes diversas de feedback, você terá um conjunto completo de ferramentas para refinar seus modelos com eficácia.

Exercise 1: Métricas do modelo e ajustes Exercise 2: Mitigando a divergência KL negativa Exercise 3: Verificando o modelo de recompensa Exercise 4: Incorporando fontes diversas de feedback Exercise 5: Votação por maioria em múltiplas fontes de dados Exercise 6: Identificação de fonte de dados não confiável Exercise 7: Avaliando modelos de RLHF Exercise 8: Interpretando curvas Exercise 9: Avaliando RLHF com métricas Exercise 10: Encerrando sua jornada em RLHF