Inizia subitoInizia gratis

Verificare il reward model

Tornando a fare fine-tuning del modello, noti che le prestazioni sono ancora peggiori rispetto al modello base. Questa volta vuoi ispezionare il reward model e hai creato un insieme di dati con una serie di risultati del modello che andrai ad analizzare. Quali controlli effettuerai sui dati di output?

L'insieme di dati è stato preimportato come reward_model_results.

Questo esercizio fa parte del corso

Reinforcement Learning from Human Feedback (RLHF)

Visualizza corso

esercizio interattivo pratico

Trasforma la teoria in pratica con uno dei nostri esercizi interattivi

Inizia esercizio