RLHF ile metin üretimi

Bu egzersizde, RLHF ile önceden eğitilmiş lvwerra/gpt2-imdb-pos-v2 adlı bir modelle çalışacaksın. Bu egzersiz, bir Hugging Face pipeline'ı kurmayı gözden geçirmek ve RLHF ile eğitilmiş modeller için bir kullanım senaryosunu denemek için bir fırsat: film yorumları üretme.

pipeline, AutoModelForCausalLM, and AutoTokenizer nesneleri transformers paketinden önceden içe aktarılmıştır. tokenizer önceden yüklenmiştir

Bu egzersiz, kursun bir parçasıdır

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Kursa Göz Atın

Egzersiz talimatları

Model adını RLHF ile önceden eğitilmiş model olan lvwerra/gpt2-imdb-pos-v2 olarak ayarla.
pipeline fonksiyonunu kullanarak bir text-generation pipeline'ı oluştur.
Sağlanan incelemenin devamını üretmek için metin üretim pipeline'ını kullan.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Set the model name
model_name = ____
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Create a text generation pipeline
text_generator = pipeline(____, model=model, tokenizer=tokenizer)

review_prompt = "Surprisingly, the film"

# Generate a continuation of the review
generated_text = text_generator(____, max_length=10)
print(f"Generated Review Continuation: {generated_text[0]['generated_text']}")

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölüm, Yapay Zekânın daha etkili öğrenmesine yardımcı olmak için insan girdisini kullanan İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) temellerini tanıtır. RLHF’ye, geleneksel pekiştirmeli öğrenmeden nasıl ayrıldığını ve insan geri bildiriminin neden farklı alanlarda yapay zekâ performansını artırabildiğini anlayarak başla.

Exercise 1: RLHF'ye Giriş Exercise 2: RLHF ile metin üretimi

Geçerli egzersiz

Exercise 3: RLHF için üretilen metni sınıflandırma Exercise 4: RL ve RLHF Exercise 5: Önceden eğitilmiş LLM'leri keşfetme Exercise 6: Bir metin veri kümesini tokenleştir Exercise 7: Yorum sınıflandırması için ince ayar (fine-tuning)Exercise 8: RLHF için verileri hazırlama Exercise 9: Tercih veri kümesini hazırlama Exercise 10: İstemleri çıkarma

Bu bölümde, insan geri bildirimi toplamak için sistemleri nasıl kuracağını keşfet. Eşli karşılaştırmalardan belirsizlik örneklemesine kadar yüksek kaliteli veri toplamanın en iyi uygulamalarını öğren ve veri toplamanı güçlendirecek stratejileri incele.

Exercise 1: Yüksek kaliteli geri bildirim toplama yöntemleri Exercise 2: RLHF'de karşılaştırma ve derecelendirmeyi anlama Exercise 3: Bir spor salonu kampanyası için sloganları karşılaştırma Exercise 4: Geri bildirim kalitesini ve uygunluğunu ölçme Exercise 5: Düşük güven Exercise 6: Geri bildirim kümeleme için K-means Exercise 7: Aktif öğrenme Exercise 8: Aktif öğrenme hattı (pipeline) uygulama Exercise 9: Aktif öğrenme döngüsü

Bu bölümde, İnsan Geri Bildiriminden Pekiştirmeli Öğrenme eğitiminin özüne ineceksin. Bu; PPO ile ince ayarı keşfetmeyi, verimli eğitim tekniklerini ve metrik hedeflerinden olası sapmaları yönetmeyi içerir.

Exercise 1: Ödül modellerine derin bakış Exercise 2: Ödülü başlatma Exercise 3: Ödül eğitmenini ayarlama Exercise 4: PPO ile eğitim Exercise 5: PPO eğitmenini başlat Exercise 6: PPO ile ince ayar Exercise 7: RLHF'te verimli ince ayar Exercise 8: 8-bit Eğitime Hazırlık Exercise 9: LoRA ile eğit

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) kursunun bu son bölümünde model performansını değerlendirme ve iyileştirme için temel teknikleri keşfet: ince ayar metriklerinden çeşitli geri bildirim kaynaklarını dahil etmeye kadar, modellerini etkili şekilde geliştirmek için kapsamlı bir araç seti sunulacak.

Exercise 1: Model metrikleri ve ayarlamalar Exercise 2: Negatif KL ayrışmasını azaltma Exercise 3: Ödül modelini kontrol etme Exercise 4: Çeşitli geri bildirim kaynaklarını entegre etmek Exercise 5: Birden çok veri kaynağında çoğunluk oylaması Exercise 6: Güvenilmez veri kaynağını belirleme Exercise 7: RLHF modellerini değerlendirme Exercise 8: Eğrileri yorumlama Exercise 9: Metriklerle RLHF değerlendirme Exercise 10: RLHF yolculuğunu noktalayalım