Entraînement, affinage et rétroaction
Vous travaillez sur un projet visant à développer un modèle utilisant la technique d'apprentissage par renforcement grâce au retour d'information humain (RLHF) afin d'optimiser ses performances dans un environnement de service client.
Laquelle de ces options décrit le mieux le processus RLHF ?
Cet exercice fait partie du cours
<cours>Concepts des grands modèles de langage (LLM)</cours>Exercice interactif pratique
Transformez la théorie en action avec l’un de nos exercices interactifs
Commencer l’exercice