Comece agoraComece grátis

Verificando o modelo de recompensa

Você voltou a fazer o fine-tuning do modelo e percebeu que o desempenho ainda está pior em comparação ao modelo base. Desta vez, você quer inspecionar o modelo de recompensa e gerou um conjunto de dados com resultados do modelo que pretende analisar. Que verificações você fará nos dados de saída?

O conjunto de dados já foi importado como reward_model_results.

Este exercicio faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

exercicio interativo prático

Transforme teoria em prática com um dos nossos exercicio interativos

Iniciar exercicio