Mengurangi dampak KL divergence negatif
Anda sedang melakukan fine-tuning model menggunakan teknik RLHF dan mendapati kinerja model memburuk dibandingkan model dasar. Anda menduga hal ini disebabkan oleh KL divergence negatif, sehingga Anda ingin menetapkan parameter generasi yang tepat untuk mencegah masalah ini.
tokenizer telah diimpor sebelumnya.
Latihan ini merupakan bagian dari kursus
Reinforcement Learning from Human Feedback (RLHF)
Instruksi latihan
- Atur
top_kdanmin_lengthke nilai yang membantu menghindari KL divergence.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
generation_kwargs = {
# Set min length and top k parameters
____,
"top_p": 1.0,
"do_sample": True,
"pad_token_id": tokenizer.eos_token_id,
"max_new_tokens": 32}