Training, tuning e feedback
Stai lavorando a un progetto per sviluppare un modello usando la tecnica Reinforcement Learning through Human Feedback (RLHF) per ottimizzarne le prestazioni in un contesto di assistenza clienti.
Quale di queste opzioni descrive in modo più accurato il processo di RLHF?
Questo esercizio fa parte del corso
Concetti sui Large Language Models (LLM)
esercizio interattivo pratico
Trasforma la teoria in pratica con uno dei nostri esercizi interattivi
Inizia esercizio