Verificando o modelo de recompensa
Você voltou a fazer o fine-tuning do modelo e percebeu que o desempenho ainda está pior em comparação ao modelo base. Desta vez, você quer inspecionar o modelo de recompensa e gerou um conjunto de dados com resultados do modelo que pretende analisar. Que verificações você fará nos dados de saída?
O conjunto de dados já foi importado como reward_model_results.
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício