ComeçarComece de graça

Treinamento, ajuste e feedback

Você está trabalhando em um projeto para desenvolver um modelo usando a técnica de Aprendizado por reforço com feedback humano (RLHF) para otimizar seu desempenho em um ambiente de suporte ao cliente.

Qual dessas opções descreve com mais precisão o processo de RLHF?

Este exercício faz parte do curso

Conceitos de modelos de linguagem grandes (LLMs)

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício