Menafsirkan kurva
Anda sedang mengevaluasi sebuah model menggunakan kurva pembelajaran dan metrik kinerja selama beberapa epoch pelatihan. Apa yang ditunjukkan oleh kurva kerugian KL yang relatif stabil tentang model Anda?
Latihan ini adalah bagian dari kursus
Reinforcement Learning from Human Feedback (RLHF)
Latihan interaktif praktis
Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.
Mulai berolahraga