Treinamento, ajuste e feedback
Você está trabalhando em um projeto para desenvolver um modelo usando a técnica de aprendizado por reforço com feedback humano (RLHF, Reinforcement Learning from Human Feedback) para otimizar seu desempenho em um ambiente de atendimento ao cliente.
Qual destas opções descreve com mais precisão o processo de RLHF?
Este exercicio faz parte do curso
Conceitos de Grandes Modelos de Linguagem (LLMs)
exercicio interativo prático
Transforme teoria em prática com um dos nossos exercicio interativos
Iniciar exercicio