MulaiMulai sekarang secara gratis

Mengurangi dampak KL divergence negatif

Anda sedang melakukan fine-tuning model menggunakan teknik RLHF dan mendapati kinerja model memburuk dibandingkan model dasar. Anda menduga hal ini disebabkan oleh KL divergence negatif, sehingga Anda ingin menetapkan parameter generasi yang tepat untuk mencegah masalah ini.

tokenizer telah diimpor sebelumnya.

Latihan ini adalah bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Petunjuk latihan

  • Atur top_k dan min_length ke nilai yang membantu menghindari KL divergence.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

generation_kwargs = {
    # Set min length and top k parameters
    ____, 
  	"top_p": 1.0,
  	"do_sample": True,  
  	"pad_token_id": tokenizer.eos_token_id, 
  	"max_new_tokens": 32}
Edit dan Jalankan Kode