Negatif KL ayrışmasını azaltma
Modeli RLHF teknikleriyle ince ayar yapıyordun ve modelin performansının temel modele kıyasla kötüleştiğini fark ettin. Bunun negatif KL ayrışmasından kaynaklandığından şüpheleniyorsun, bu yüzden bunu önlemek için doğru üretim parametrelerini ayarlamak istiyorsun.
tokenizer önceden içe aktarıldı.
Bu egzersiz, kursun bir parçasıdır
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
Egzersiz talimatları
- KL ayrışmasından kaçınmaya yardımcı olacak değerler için
top_kvemin_lengthayarla.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
generation_kwargs = {
# Set min length and top k parameters
____,
"top_p": 1.0,
"do_sample": True,
"pad_token_id": tokenizer.eos_token_id,
"max_new_tokens": 32}