CommencerCommencer gratuitement

Vérifier le modèle de récompense

Vous revenez à l’affinage du modèle et constatez que les performances restent inférieures à celles du modèle de base. Cette fois, vous souhaitez inspecter le modèle de récompense, et vous avez produit un jeu de données avec un ensemble de résultats du modèle que vous allez analyser. Quelles vérifications allez-vous effectuer sur les données de sortie ?

Le jeu de données a été préimporté sous le nom reward_model_results.

Cet exercice fait partie du cours

Reinforcement Learning from Human Feedback (RLHF)

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice