Treinamento, ajuste e feedback
Você está trabalhando em um projeto para desenvolver um modelo usando a técnica de aprendizado por reforço com feedback humano (RLHF, Reinforcement Learning from Human Feedback) para otimizar seu desempenho em um ambiente de atendimento ao cliente.
Qual destas opções descreve com mais precisão o processo de RLHF?
Este exercício faz parte do curso
Conceitos de Grandes Modelos de Linguagem (LLMs)
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício