BaşlayınÜcretsiz başlayın

Ödül modelini kontrol etme

Modele yeniden ince ayar yapmaya dönüyorsun ve modelin performansının taban modele kıyasla hâlâ daha kötü olduğunu fark ediyorsun. Bu kez, ödül modelini incelemek istiyorsun ve analiz edeceğin, modelden alınmış sonuçların bulunduğu bir veri kümesi oluşturdun. Çıktı verisi üzerinde hangi kontrolleri yaparsın?

Veri kümesi reward_model_results olarak önceden içe aktarılmıştır.

Bu egzersiz, kursun bir parçasıdır

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Teoriyi etkileşime dönüştürün, interaktif egzersizlerimizden biriyle

Egzersize başla