Comece agoraComece grátis

Treinamento, ajuste e feedback

Você está trabalhando em um projeto para desenvolver um modelo usando a técnica de aprendizado por reforço com feedback humano (RLHF, Reinforcement Learning from Human Feedback) para otimizar seu desempenho em um ambiente de atendimento ao cliente.

Qual destas opções descreve com mais precisão o processo de RLHF?

Este exercicio faz parte do curso

Conceitos de Grandes Modelos de Linguagem (LLMs)

Ver curso

exercicio interativo prático

Transforme teoria em prática com um dos nossos exercicio interativos

Iniciar exercicio