CommencerCommencez gratuitement

Entraînement, affinage et rétroaction

Vous travaillez sur un projet visant à développer un modèle utilisant la technique d'apprentissage par renforcement grâce au retour d'information humain (RLHF) afin d'optimiser ses performances dans un environnement de service client.

Laquelle de ces options décrit le mieux le processus RLHF ?

Cet exercice fait partie du cours

<cours>Concepts des grands modèles de langage (LLM)</cours>
Voir le cours

Exercice interactif pratique

Transformez la théorie en action avec l’un de nos exercices interactifs

Commencer l’exercice