CommencerCommencer gratuitement

Entraînement, affinage et rétroaction

Vous travaillez sur un projet visant à développer un modèle utilisant la technique d'apprentissage par renforcement grâce au retour d'information humain (RLHF) afin d'optimiser ses performances dans un environnement de service client.

Laquelle de ces options décrit le mieux le processus RLHF ?

Cet exercice fait partie du cours

Concepts des grands modèles de langage (LLM)

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice