MulaiMulai sekarang secara gratis

Memeriksa reward model

Anda kembali melakukan fine-tuning pada model dan menyadari bahwa kinerja model masih lebih buruk dibandingkan dengan base model. Kali ini, Anda ingin meninjau reward model, dan Anda telah menyiapkan himpunan data berisi sekumpulan hasil dari model yang akan Anda analisis. Pemeriksaan apa yang akan Anda lakukan pada data keluaran?

Himpunan data telah diimpor sebelumnya sebagai reward_model_results.

Latihan ini adalah bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Latihan interaktif praktis

Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.

Mulai berolahraga