Interpretando curvas
Você está avaliando um modelo usando curvas de aprendizado e métricas de desempenho ao longo de várias épocas de treinamento. O que uma curva de perda de KL relativamente estável indica sobre o seu modelo?
Este exercicio faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
exercicio interativo prático
Transforme teoria em prática com um dos nossos exercicio interativos
Iniciar exercicio