BaşlayınÜcretsiz Başlayın

Ödül modelini kontrol etme

Modele yeniden ince ayar yapmaya dönüyorsun ve modelin performansının taban modele kıyasla hâlâ daha kötü olduğunu fark ediyorsun. Bu kez, ödül modelini incelemek istiyorsun ve analiz edeceğin, modelden alınmış sonuçların bulunduğu bir veri kümesi oluşturdun. Çıktı verisi üzerinde hangi kontrolleri yaparsın?

Veri kümesi reward_model_results olarak önceden içe aktarılmıştır.

Bu egzersiz

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün

Egzersizi başlat