Tercih veri kümesini hazırlama

Bu egzersizde, insan geri bildiriminin "chosen" ve "rejected" çıktıları şeklinde yer aldığı bir veri kümesiyle çalışacaksın. Görevin, "chosen" sütunundan istemleri (prompts) çıkarmak ve veriyi bir ödül modeli eğitimi için hazırlamak.

datasets içindeki load_dataset fonksiyonu önceden içe aktarıldı

Bu egzersiz, kursun bir parçasıdır

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Kursa Göz Atın

Egzersiz talimatları

Hugging Face'ten trl-internal-testing/hh-rlhf-helpful-base-trl-style veri kümesini yükle.
Fonksiyona verilen girdide istemin 0. indekste yer aldığını varsayarak 'content' alanından istemi çıkaran bir fonksiyon yaz.
İstemi çıkaran fonksiyonu 'chosen' veri kümesi alt kümesine uygula.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Load the dataset
preference_data = ____

# Define a function to extract the prompt
def extract_prompt(text):
    ____
    return prompt

# Apply the function to the dataset 
preference_data_with_prompt = ____(
    lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)

sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölüm, Yapay Zekânın daha etkili öğrenmesine yardımcı olmak için insan girdisini kullanan İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) temellerini tanıtır. RLHF’ye, geleneksel pekiştirmeli öğrenmeden nasıl ayrıldığını ve insan geri bildiriminin neden farklı alanlarda yapay zekâ performansını artırabildiğini anlayarak başla.

Exercise 1: RLHF'ye Giriş Exercise 2: RLHF ile metin üretimi Exercise 3: RLHF için üretilen metni sınıflandırma Exercise 4: RL ve RLHF Exercise 5: Önceden eğitilmiş LLM'leri keşfetme Exercise 6: Bir metin veri kümesini tokenleştir Exercise 7: Yorum sınıflandırması için ince ayar (fine-tuning)Exercise 8: RLHF için verileri hazırlama Exercise 9: Tercih veri kümesini hazırlama

Geçerli egzersiz

Exercise 10: İstemleri çıkarma

Bu bölümde, insan geri bildirimi toplamak için sistemleri nasıl kuracağını keşfet. Eşli karşılaştırmalardan belirsizlik örneklemesine kadar yüksek kaliteli veri toplamanın en iyi uygulamalarını öğren ve veri toplamanı güçlendirecek stratejileri incele.

Exercise 1: Yüksek kaliteli geri bildirim toplama yöntemleri Exercise 2: RLHF'de karşılaştırma ve derecelendirmeyi anlama Exercise 3: Bir spor salonu kampanyası için sloganları karşılaştırma Exercise 4: Geri bildirim kalitesini ve uygunluğunu ölçme Exercise 5: Düşük güven Exercise 6: Geri bildirim kümeleme için K-means Exercise 7: Aktif öğrenme Exercise 8: Aktif öğrenme hattı (pipeline) uygulama Exercise 9: Aktif öğrenme döngüsü

Bu bölümde, İnsan Geri Bildiriminden Pekiştirmeli Öğrenme eğitiminin özüne ineceksin. Bu; PPO ile ince ayarı keşfetmeyi, verimli eğitim tekniklerini ve metrik hedeflerinden olası sapmaları yönetmeyi içerir.

Exercise 1: Ödül modellerine derin bakış Exercise 2: Ödülü başlatma Exercise 3: Ödül eğitmenini ayarlama Exercise 4: PPO ile eğitim Exercise 5: PPO eğitmenini başlat Exercise 6: PPO ile ince ayar Exercise 7: RLHF'te verimli ince ayar Exercise 8: 8-bit Eğitime Hazırlık Exercise 9: LoRA ile eğit

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) kursunun bu son bölümünde model performansını değerlendirme ve iyileştirme için temel teknikleri keşfet: ince ayar metriklerinden çeşitli geri bildirim kaynaklarını dahil etmeye kadar, modellerini etkili şekilde geliştirmek için kapsamlı bir araç seti sunulacak.

Exercise 1: Model metrikleri ve ayarlamalar Exercise 2: Negatif KL ayrışmasını azaltma Exercise 3: Ödül modelini kontrol etme Exercise 4: Çeşitli geri bildirim kaynaklarını entegre etmek Exercise 5: Birden çok veri kaynağında çoğunluk oylaması Exercise 6: Güvenilmez veri kaynağını belirleme Exercise 7: RLHF modellerini değerlendirme Exercise 8: Eğrileri yorumlama Exercise 9: Metriklerle RLHF değerlendirme Exercise 10: RLHF yolculuğunu noktalayalım