Treinamento, ajuste e feedback
Você está trabalhando em um projeto para desenvolver um modelo usando a técnica de Aprendizado por reforço com feedback humano (RLHF) para otimizar seu desempenho em um ambiente de suporte ao cliente.
Qual dessas opções descreve com mais precisão o processo de RLHF?
Este exercício faz parte do curso
Conceitos de modelos de linguagem grandes (LLMs)
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
