ComeçarComece de graça

Verificando o modelo de recompensa

Você voltou a fazer o fine-tuning do modelo e percebeu que o desempenho ainda está pior em comparação ao modelo base. Desta vez, você quer inspecionar o modelo de recompensa e gerou um conjunto de dados com resultados do modelo que pretende analisar. Que verificações você fará nos dados de saída?

O conjunto de dados já foi importado como reward_model_results.

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício