Interpretando curvas
Você está avaliando um modelo usando curvas de aprendizado e métricas de desempenho ao longo de várias épocas de treinamento. O que uma curva de perda de KL relativamente estável indica sobre o seu modelo?
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício