ComeçarComece de graça

Treinamento, ajuste e feedback

Você está trabalhando em um projeto para desenvolver um modelo usando a técnica de aprendizado por reforço com feedback humano (RLHF, Reinforcement Learning from Human Feedback) para otimizar seu desempenho em um ambiente de atendimento ao cliente.

Qual destas opções descreve com mais precisão o processo de RLHF?

Este exercício faz parte do curso

Conceitos de Grandes Modelos de Linguagem (LLMs)

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício