CommencerCommencer gratuitement

Formation, mise au point et retour d'information

Vous travaillez sur un projet visant à développer un modèle utilisant la technique de l'apprentissage par renforcement à travers le feedback humain (RLHF) afin d'optimiser ses performances dans un environnement d'assistance à la clientèle.

Laquelle de ces options décrit le mieux le processus RLHF?

Cet exercice fait partie du cours

Grands modèles linguistiques (LLMs) Concepts

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice