Entraînement, affinage et rétroaction
Vous travaillez sur un projet visant à développer un modèle utilisant la technique d'apprentissage par renforcement grâce au retour d'information humain (RLHF) afin d'optimiser ses performances dans un environnement de service client.
Laquelle de ces options décrit le mieux le processus RLHF ?
Cet exercice fait partie du cours
Concepts des grands modèles de langage (LLM)
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice