BaşlayınÜcretsiz başlayın

Negatif KL ayrışmasını azaltma

Modeli RLHF teknikleriyle ince ayar yapıyordun ve modelin performansının temel modele kıyasla kötüleştiğini fark ettin. Bunun negatif KL ayrışmasından kaynaklandığından şüpheleniyorsun, bu yüzden bunu önlemek için doğru üretim parametrelerini ayarlamak istiyorsun.

tokenizer önceden içe aktarıldı.

Bu egzersiz, kursun bir parçasıdır

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Kursa Göz Atın

Egzersiz talimatları

  • KL ayrışmasından kaçınmaya yardımcı olacak değerler için top_k ve min_length ayarla.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

generation_kwargs = {
    # Set min length and top k parameters
    ____, 
  	"top_p": 1.0,
  	"do_sample": True,  
  	"pad_token_id": tokenizer.eos_token_id, 
  	"max_new_tokens": 32}
Kodu Düzenle ve Çalıştır