Memeriksa reward model
Anda kembali melakukan fine-tuning pada model dan menyadari bahwa kinerja model masih lebih buruk dibandingkan dengan base model. Kali ini, Anda ingin meninjau reward model, dan Anda telah menyiapkan himpunan data berisi sekumpulan hasil dari model yang akan Anda analisis. Pemeriksaan apa yang akan Anda lakukan pada data keluaran?
Himpunan data telah diimpor sebelumnya sebagai reward_model_results.
Latihan ini merupakan bagian dari kursus
Reinforcement Learning from Human Feedback (RLHF)
Latihan interaktif langsung
Ubah teori menjadi aksi dengan salah satu latihan interaktif kami
Mulai latihan