IniziaInizia gratis

Training, tuning e feedback

Stai lavorando a un progetto per sviluppare un modello usando la tecnica Reinforcement Learning through Human Feedback (RLHF) per ottimizzarne le prestazioni in un contesto di assistenza clienti.

Quale di queste opzioni descrive in modo più accurato il processo di RLHF?

Questo esercizio fa parte del corso

Concetti sui Large Language Models (LLM)

Visualizza il corso

Esercizio pratico interattivo

Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi

Inizia esercizio