Tokenizar um conjunto de dados de texto

Você está trabalhando em uma pesquisa de mercado para um site de viagens e quer usar um conjunto de dados existente para ajustar fino um modelo que ajude a classificar avaliações de hotéis. Você decide usar a biblioteca datasets.

A classe AutoTokenizer já foi importada de transformers, e load_dataset() já foi importada de datasets.

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Instruções do exercício

Adicione padding ao tokenizador para processar texto em lotes de tamanho igual.
Tokenize os dados de texto usando o tokenizador GPT pré-treinado e a função definida.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

dataset = load_dataset("argilla/tripadvisor-hotel-reviews")

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Add padding with the pad token
tokenizer.____

def tokenize_function(examples):
   return tokenizer(examples["text"], padding="max_length", truncation=True)

# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)

Editar e executar o código

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

AvançadoNível de habilidade

4.8+

Iniciar curso de graça

Este capítulo apresenta os fundamentos de Reinforcement Learning with Human Feedback (RLHF), uma técnica que usa a contribuição humana para ajudar modelos de IA a aprender de forma mais eficaz. Comece com RLHF entendendo como ele difere do aprendizado por reforço tradicional e por que o feedback humano pode aprimorar o desempenho da IA em diferentes domínios.

Exercise 1: Introdução ao RLHF Exercise 2: Geração de texto com RLHF Exercise 3: Classificando texto gerado para RLHF Exercise 4: RL vs. RLHF Exercise 5: Explorando LLMs pré-treinadas Exercise 6: Tokenizar um conjunto de dados de texto

Exercício atual

Exercise 7: Fine-tuning para classificação de avaliações Exercise 8: Preparando dados para RLHF Exercise 9: Preparando o conjunto de dados de preferências Exercise 10: Extraindo prompts

Descubra como configurar sistemas para coletar feedback humano neste capítulo. Aprenda boas práticas para coletar dados de alta qualidade — de comparações pareadas a amostragem por incerteza — e explore estratégias para potencializar sua coleta de dados.

Exercise 1: Métodos para coletar feedback de alta qualidade Exercise 2: Entendendo comparação e rating em RLHF Exercise 3: Comparando slogans para uma campanha de academia Exercise 4: Mensurando a qualidade e a relevância do feedback Exercise 5: Baixa confiança Exercise 6: K-means para agrupar feedbacks Exercise 7: Active learning Exercise 8: Implementando um pipeline de active learning Exercise 9: Loop de active learning

Neste capítulo, você vai entrar no núcleo do treinamento de Reinforcement Learning from Human Feedback. Isso inclui explorar fine-tuning com PPO, técnicas para treinar com eficiência e como lidar com possíveis divergências em relação aos objetivos das suas métricas.

Exercise 1: Explorando modelos de recompensa Exercise 2: Inicializando o reward Exercise 3: Configurando o treinador de recompensa Exercise 4: Treinando com PPO Exercise 5: Inicializar o treinador PPO Exercise 6: Ajuste fino com PPO Exercise 7: Ajuste fino eficiente em RLHF Exercise 8: Prepare para treinamento em 8 bits Exercise 9: Treinar com LoRA

Explore técnicas essenciais para avaliar e melhorar o desempenho do modelo neste último capítulo de Reinforcement Learning from Human Feedback (RLHF): de métricas de fine-tuning à incorporação de fontes diversas de feedback, você terá um conjunto completo de ferramentas para refinar seus modelos com eficácia.

Exercise 1: Métricas do modelo e ajustes Exercise 2: Mitigando a divergência KL negativa Exercise 3: Verificando o modelo de recompensa Exercise 4: Incorporando fontes diversas de feedback Exercise 5: Votação por maioria em múltiplas fontes de dados Exercise 6: Identificação de fonte de dados não confiável Exercise 7: Avaliando modelos de RLHF Exercise 8: Interpretando curvas Exercise 9: Avaliando RLHF com métricas Exercise 10: Encerrando sua jornada em RLHF