Negatif KL ayrışmasını azaltma
Modeli RLHF teknikleriyle ince ayar yapıyordun ve modelin performansının temel modele kıyasla kötüleştiğini fark ettin. Bunun negatif KL ayrışmasından kaynaklandığından şüpheleniyorsun, bu yüzden bunu önlemek için doğru üretim parametrelerini ayarlamak istiyorsun.
tokenizer önceden içe aktarıldı.
Bu egzersiz
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
kursunun bir parçasıdırEgzersiz talimatları
- KL ayrışmasından kaçınmaya yardımcı olacak değerler için
top_kvemin_lengthayarla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
generation_kwargs = {
# Set min length and top k parameters
____,
"top_p": 1.0,
"do_sample": True,
"pad_token_id": tokenizer.eos_token_id,
"max_new_tokens": 32}