Mulai sekarangMulai gratis

Mengurangi dampak KL divergence negatif

Anda sedang melakukan fine-tuning model menggunakan teknik RLHF dan mendapati kinerja model memburuk dibandingkan model dasar. Anda menduga hal ini disebabkan oleh KL divergence negatif, sehingga Anda ingin menetapkan parameter generasi yang tepat untuk mencegah masalah ini.

tokenizer telah diimpor sebelumnya.

Latihan ini merupakan bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Instruksi latihan

  • Atur top_k dan min_length ke nilai yang membantu menghindari KL divergence.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

generation_kwargs = {
    # Set min length and top k parameters
    ____, 
  	"top_p": 1.0,
  	"do_sample": True,  
  	"pad_token_id": tokenizer.eos_token_id, 
  	"max_new_tokens": 32}
Edit dan Jalankan Kode