Vérifier le modèle de récompense
Vous revenez à l’affinage du modèle et constatez que les performances restent inférieures à celles du modèle de base. Cette fois, vous souhaitez inspecter le modèle de récompense, et vous avez produit un jeu de données avec un ensemble de résultats du modèle que vous allez analyser. Quelles vérifications allez-vous effectuer sur les données de sortie ?
Le jeu de données a été préimporté sous le nom reward_model_results.
Cet exercice fait partie du cours
Reinforcement Learning from Human Feedback (RLHF)
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice