Birden çok veri kaynağında çoğunluk oylaması

Ekibin, akıllı telefon kalite kontrol (QC) raporlarını otomatik olarak oluşturan bir AI modeli geliştiriyor. Bu amaçla, üç farklı kalite kontrol kaynağından — "Automated Vision System", "Human Inspector" ve "Customer Feedback" — tercih verisi topladınız. Her biri, eşleştirilmiş metin örneklerini 'chosen' ve 'rejected' olarak etiketledi. Her çiftin benzersiz bir 'id'si var ve her kayıt tercih edilen bir QC incelemesini gösteriyor.

quality_df, üç farklı veri kaynağından gelen verileri içeren ve pandas kullanılarak yüklenmiş birleşik bir DataFrame'dir. Ayrıca, collections modülünden Counter sınıfı önceden içe aktarılmıştır.

Bu egzersiz, kursun bir parçasıdır

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Kursa Göz Atın

Egzersiz talimatları

vote fonksiyonu içinde her (chosen, rejected) çiftinin görülme sayısını say.
En yüksek oy sayısına sahip (chosen, rejected) çiftini bul.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

def majority_vote(df):
  	# Count occurrences of each (chosen, rejected) pair
    votes = ____
    # Find the (chosen, rejected) pair with the highest vote count
    winner = ____
    return winner

final_preferences = quality_df.groupby(['id']).apply(majority_vote)

print(final_preferences)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölüm, Yapay Zekânın daha etkili öğrenmesine yardımcı olmak için insan girdisini kullanan İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) temellerini tanıtır. RLHF’ye, geleneksel pekiştirmeli öğrenmeden nasıl ayrıldığını ve insan geri bildiriminin neden farklı alanlarda yapay zekâ performansını artırabildiğini anlayarak başla.

Exercise 1: RLHF'ye Giriş Exercise 2: RLHF ile metin üretimi Exercise 3: RLHF için üretilen metni sınıflandırma Exercise 4: RL ve RLHF Exercise 5: Önceden eğitilmiş LLM'leri keşfetme Exercise 6: Bir metin veri kümesini tokenleştir Exercise 7: Yorum sınıflandırması için ince ayar (fine-tuning)Exercise 8: RLHF için verileri hazırlama Exercise 9: Tercih veri kümesini hazırlama Exercise 10: İstemleri çıkarma

Bu bölümde, insan geri bildirimi toplamak için sistemleri nasıl kuracağını keşfet. Eşli karşılaştırmalardan belirsizlik örneklemesine kadar yüksek kaliteli veri toplamanın en iyi uygulamalarını öğren ve veri toplamanı güçlendirecek stratejileri incele.

Exercise 1: Yüksek kaliteli geri bildirim toplama yöntemleri Exercise 2: RLHF'de karşılaştırma ve derecelendirmeyi anlama Exercise 3: Bir spor salonu kampanyası için sloganları karşılaştırma Exercise 4: Geri bildirim kalitesini ve uygunluğunu ölçme Exercise 5: Düşük güven Exercise 6: Geri bildirim kümeleme için K-means Exercise 7: Aktif öğrenme Exercise 8: Aktif öğrenme hattı (pipeline) uygulama Exercise 9: Aktif öğrenme döngüsü

Bu bölümde, İnsan Geri Bildiriminden Pekiştirmeli Öğrenme eğitiminin özüne ineceksin. Bu; PPO ile ince ayarı keşfetmeyi, verimli eğitim tekniklerini ve metrik hedeflerinden olası sapmaları yönetmeyi içerir.

Exercise 1: Ödül modellerine derin bakış Exercise 2: Ödülü başlatma Exercise 3: Ödül eğitmenini ayarlama Exercise 4: PPO ile eğitim Exercise 5: PPO eğitmenini başlat Exercise 6: PPO ile ince ayar Exercise 7: RLHF'te verimli ince ayar Exercise 8: 8-bit Eğitime Hazırlık Exercise 9: LoRA ile eğit

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) kursunun bu son bölümünde model performansını değerlendirme ve iyileştirme için temel teknikleri keşfet: ince ayar metriklerinden çeşitli geri bildirim kaynaklarını dahil etmeye kadar, modellerini etkili şekilde geliştirmek için kapsamlı bir araç seti sunulacak.

Exercise 1: Model metrikleri ve ayarlamalar Exercise 2: Negatif KL ayrışmasını azaltma Exercise 3: Ödül modelini kontrol etme Exercise 4: Çeşitli geri bildirim kaynaklarını entegre etmek Exercise 5: Birden çok veri kaynağında çoğunluk oylaması

Geçerli egzersiz

Exercise 6: Güvenilmez veri kaynağını belirleme Exercise 7: RLHF modellerini değerlendirme Exercise 8: Eğrileri yorumlama Exercise 9: Metriklerle RLHF değerlendirme Exercise 10: RLHF yolculuğunu noktalayalım