Formation, mise au point et retour d'information
Vous travaillez sur un projet visant à développer un modèle utilisant la technique de l'apprentissage par renforcement à travers le feedback humain (RLHF) afin d'optimiser ses performances dans un environnement d'assistance à la clientèle.
Laquelle de ces options décrit le mieux le processus RLHF?
Cet exercice fait partie du cours
Grands modèles linguistiques (LLMs) Concepts
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
