Mengurangi dampak KL divergence negatif
Anda sedang melakukan fine-tuning model menggunakan teknik RLHF dan mendapati kinerja model memburuk dibandingkan model dasar. Anda menduga hal ini disebabkan oleh KL divergence negatif, sehingga Anda ingin menetapkan parameter generasi yang tepat untuk mencegah masalah ini.
tokenizer telah diimpor sebelumnya.
Latihan ini adalah bagian dari kursus
Reinforcement Learning from Human Feedback (RLHF)
Petunjuk latihan
- Atur
top_kdanmin_lengthke nilai yang membantu menghindari KL divergence.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
generation_kwargs = {
# Set min length and top k parameters
____,
"top_p": 1.0,
"do_sample": True,
"pad_token_id": tokenizer.eos_token_id,
"max_new_tokens": 32}