ComeçarComece gratuitamente

Treinamento, ajuste e feedback

Você está trabalhando em um projeto para desenvolver um modelo usando a técnica de Aprendizado por reforço com feedback humano (RLHF) para otimizar seu desempenho em um ambiente de suporte ao cliente.

Qual dessas opções descreve com mais precisão o processo de RLHF?

Este exercício faz parte do curso

Conceitos de modelos de linguagem grandes (LLMs)

Ver Curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Comece o exercício