Training, tuning e feedback
Stai lavorando a un progetto per sviluppare un modello usando la tecnica Reinforcement Learning through Human Feedback (RLHF) per ottimizzarne le prestazioni in un contesto di assistenza clienti.
Quale di queste opzioni descrive in modo più accurato il processo di RLHF?
Questo esercizio fa parte del corso
Concetti sui Large Language Models (LLM)
Esercizio pratico interattivo
Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi
Inizia esercizio