IniziaInizia gratis

Verificare il reward model

Tornando a fare fine-tuning del modello, noti che le prestazioni sono ancora peggiori rispetto al modello base. Questa volta vuoi ispezionare il reward model e hai creato un insieme di dati con una serie di risultati del modello che andrai ad analizzare. Quali controlli effettuerai sui dati di output?

L'insieme di dati è stato preimportato come reward_model_results.

Questo esercizio fa parte del corso

Reinforcement Learning from Human Feedback (RLHF)

Visualizza il corso

Esercizio pratico interattivo

Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi

Inizia esercizio