Comprobando el reward model
Vuelves a afinar el modelo y notas que su rendimiento sigue siendo peor que el del modelo base. Esta vez quieres inspeccionar el reward model y has preparado un conjunto de resultados del modelo que vas a analizar. ¿Qué comprobaciones harías sobre los datos de salida?
El conjunto de datos se ha preimportado como reward_model_results.
Este ejercicio forma parte del curso
Reinforcement Learning from Human Feedback (RLHF)
Ejercicio interactivo práctico
Pon en práctica la teoría con uno de nuestros ejercicios interactivos
Empezar ejercicio