ComenzarEmpieza gratis

Comprobando el reward model

Vuelves a afinar el modelo y notas que su rendimiento sigue siendo peor que el del modelo base. Esta vez quieres inspeccionar el reward model y has preparado un conjunto de resultados del modelo que vas a analizar. ¿Qué comprobaciones harías sobre los datos de salida?

El conjunto de datos se ha preimportado como reward_model_results.

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio