Verificare il reward model
Tornando a fare fine-tuning del modello, noti che le prestazioni sono ancora peggiori rispetto al modello base. Questa volta vuoi ispezionare il reward model e hai creato un insieme di dati con una serie di risultati del modello che andrai ad analizzare. Quali controlli effettuerai sui dati di output?
L'insieme di dati è stato preimportato come reward_model_results.
Questo esercizio fa parte del corso
Reinforcement Learning from Human Feedback (RLHF)
Esercizio pratico interattivo
Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi
Inizia esercizio