Düşük güven

Bu egzersizde, bir ödül modeliyle çalışarak giriş metnini ne kadar güvenle sınıflandırdığını değerlendirecek ve güvenilir olmayan tahminleri filtreleyeceksin. Amaç, modelin tahmin üretme becerisini değerlendirmek ve yalnızca yüksek güvene sahip tahminlerin geçerli sayılmasını sağlamak için bir güven eşiği uygulamak.

Her bir geri bildirim metni için olasılık dağılımları (prob_dists) ve geri bildirim metinleri (texts) değişkenleri ile least_confidence() fonksiyonu yüklendi.

Bu egzersiz, kursun bir parçasıdır

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Kursa Göz Atın

Egzersiz talimatları

Güven değeri verilen bir eşikten düşük olan olasılık dağılımlarının indekslerini filtreleyen fonksiyonu tanımla.
Eşiği değiştirmeden (0.5), olasılık dağılımlarını fonksiyona geçirerek geri bildirim yorumlarının indekslerini al.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
    filtered_indices = [i for i, ____ in enumerate(____) ____]
    return filtered_indices

# Find the indices
filtered_indices = ____

high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölüm, Yapay Zekânın daha etkili öğrenmesine yardımcı olmak için insan girdisini kullanan İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) temellerini tanıtır. RLHF’ye, geleneksel pekiştirmeli öğrenmeden nasıl ayrıldığını ve insan geri bildiriminin neden farklı alanlarda yapay zekâ performansını artırabildiğini anlayarak başla.

Exercise 1: RLHF'ye Giriş Exercise 2: RLHF ile metin üretimi Exercise 3: RLHF için üretilen metni sınıflandırma Exercise 4: RL ve RLHF Exercise 5: Önceden eğitilmiş LLM'leri keşfetme Exercise 6: Bir metin veri kümesini tokenleştir Exercise 7: Yorum sınıflandırması için ince ayar (fine-tuning)Exercise 8: RLHF için verileri hazırlama Exercise 9: Tercih veri kümesini hazırlama Exercise 10: İstemleri çıkarma

Bu bölümde, insan geri bildirimi toplamak için sistemleri nasıl kuracağını keşfet. Eşli karşılaştırmalardan belirsizlik örneklemesine kadar yüksek kaliteli veri toplamanın en iyi uygulamalarını öğren ve veri toplamanı güçlendirecek stratejileri incele.

Exercise 1: Yüksek kaliteli geri bildirim toplama yöntemleri Exercise 2: RLHF'de karşılaştırma ve derecelendirmeyi anlama Exercise 3: Bir spor salonu kampanyası için sloganları karşılaştırma Exercise 4: Geri bildirim kalitesini ve uygunluğunu ölçme Exercise 5: Düşük güven

Geçerli egzersiz

Exercise 6: Geri bildirim kümeleme için K-means Exercise 7: Aktif öğrenme Exercise 8: Aktif öğrenme hattı (pipeline) uygulama Exercise 9: Aktif öğrenme döngüsü

Bu bölümde, İnsan Geri Bildiriminden Pekiştirmeli Öğrenme eğitiminin özüne ineceksin. Bu; PPO ile ince ayarı keşfetmeyi, verimli eğitim tekniklerini ve metrik hedeflerinden olası sapmaları yönetmeyi içerir.

Exercise 1: Ödül modellerine derin bakış Exercise 2: Ödülü başlatma Exercise 3: Ödül eğitmenini ayarlama Exercise 4: PPO ile eğitim Exercise 5: PPO eğitmenini başlat Exercise 6: PPO ile ince ayar Exercise 7: RLHF'te verimli ince ayar Exercise 8: 8-bit Eğitime Hazırlık Exercise 9: LoRA ile eğit

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) kursunun bu son bölümünde model performansını değerlendirme ve iyileştirme için temel teknikleri keşfet: ince ayar metriklerinden çeşitli geri bildirim kaynaklarını dahil etmeye kadar, modellerini etkili şekilde geliştirmek için kapsamlı bir araç seti sunulacak.

Exercise 1: Model metrikleri ve ayarlamalar Exercise 2: Negatif KL ayrışmasını azaltma Exercise 3: Ödül modelini kontrol etme Exercise 4: Çeşitli geri bildirim kaynaklarını entegre etmek Exercise 5: Birden çok veri kaynağında çoğunluk oylaması Exercise 6: Güvenilmez veri kaynağını belirleme Exercise 7: RLHF modellerini değerlendirme Exercise 8: Eğrileri yorumlama Exercise 9: Metriklerle RLHF değerlendirme Exercise 10: RLHF yolculuğunu noktalayalım