BaşlayınÜcretsiz Başlayın

Negatif KL ayrışmasını azaltma

Modeli RLHF teknikleriyle ince ayar yapıyordun ve modelin performansının temel modele kıyasla kötüleştiğini fark ettin. Bunun negatif KL ayrışmasından kaynaklandığından şüpheleniyorsun, bu yüzden bunu önlemek için doğru üretim parametrelerini ayarlamak istiyorsun.

tokenizer önceden içe aktarıldı.

Bu egzersiz

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • KL ayrışmasından kaçınmaya yardımcı olacak değerler için top_k ve min_length ayarla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

generation_kwargs = {
    # Set min length and top k parameters
    ____, 
  	"top_p": 1.0,
  	"do_sample": True,  
  	"pad_token_id": tokenizer.eos_token_id, 
  	"max_new_tokens": 32}
Kodu Düzenle ve Çalıştır