Güvenilmez veri kaynağını belirleme

Ekibin, otomotiv güvenliği sektöründe doğru raporlamayı destekleyen bir model geliştiriyor. Üç veri kaynağından tercih verileri topladın: "GlobalDrive Safety Institute", "AutoTech Safety Alliance" ve "QuickScan Auto Review". Son zamanlarda verinin bütünlüğü hakkında endişeler oluştu ve senden güvenilmez olabilecek veri kaynaklarını tespit etmek için veriyi değerlendirmen istendi.

automotive_df, önceden içe aktarılmış pandas kütüphanesi kullanılarak yüklenmiş birleşik bir DataFrame'dir. Üç kaynaktaki verileri içerir. Önceden içe aktarılmış majority_vote fonksiyonu, her 'id' için çoğunluk (chosen, rejected) çiftini içeren sözlük benzeri bir nesne oluşturur.

Bu egzersiz, kursun bir parçasıdır

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Kursa Göz Atın

Egzersiz talimatları

Belirli bir veri kaynağı için çoğunluk oylamasıyla bir uyuşmazlığı sayma koşulunu tanımla.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

def detect_unreliable_source(merged_df):
    df_majority = df.groupby('id').apply(majority_vote)
    disagreements = {source: 0 for source in df['source'].unique()}
    for _, row in df.iterrows():
        # Condition to find a disagreement with majority vote
        ____
    unreliable_source = max(disagreements, key=disagreements.get)
    return unreliable_source

disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölüm, Yapay Zekânın daha etkili öğrenmesine yardımcı olmak için insan girdisini kullanan İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) temellerini tanıtır. RLHF’ye, geleneksel pekiştirmeli öğrenmeden nasıl ayrıldığını ve insan geri bildiriminin neden farklı alanlarda yapay zekâ performansını artırabildiğini anlayarak başla.

Exercise 1: RLHF'ye Giriş Exercise 2: RLHF ile metin üretimi Exercise 3: RLHF için üretilen metni sınıflandırma Exercise 4: RL ve RLHF Exercise 5: Önceden eğitilmiş LLM'leri keşfetme Exercise 6: Bir metin veri kümesini tokenleştir Exercise 7: Yorum sınıflandırması için ince ayar (fine-tuning)Exercise 8: RLHF için verileri hazırlama Exercise 9: Tercih veri kümesini hazırlama Exercise 10: İstemleri çıkarma

Bu bölümde, insan geri bildirimi toplamak için sistemleri nasıl kuracağını keşfet. Eşli karşılaştırmalardan belirsizlik örneklemesine kadar yüksek kaliteli veri toplamanın en iyi uygulamalarını öğren ve veri toplamanı güçlendirecek stratejileri incele.

Exercise 1: Yüksek kaliteli geri bildirim toplama yöntemleri Exercise 2: RLHF'de karşılaştırma ve derecelendirmeyi anlama Exercise 3: Bir spor salonu kampanyası için sloganları karşılaştırma Exercise 4: Geri bildirim kalitesini ve uygunluğunu ölçme Exercise 5: Düşük güven Exercise 6: Geri bildirim kümeleme için K-means Exercise 7: Aktif öğrenme Exercise 8: Aktif öğrenme hattı (pipeline) uygulama Exercise 9: Aktif öğrenme döngüsü

Bu bölümde, İnsan Geri Bildiriminden Pekiştirmeli Öğrenme eğitiminin özüne ineceksin. Bu; PPO ile ince ayarı keşfetmeyi, verimli eğitim tekniklerini ve metrik hedeflerinden olası sapmaları yönetmeyi içerir.

Exercise 1: Ödül modellerine derin bakış Exercise 2: Ödülü başlatma Exercise 3: Ödül eğitmenini ayarlama Exercise 4: PPO ile eğitim Exercise 5: PPO eğitmenini başlat Exercise 6: PPO ile ince ayar Exercise 7: RLHF'te verimli ince ayar Exercise 8: 8-bit Eğitime Hazırlık Exercise 9: LoRA ile eğit

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) kursunun bu son bölümünde model performansını değerlendirme ve iyileştirme için temel teknikleri keşfet: ince ayar metriklerinden çeşitli geri bildirim kaynaklarını dahil etmeye kadar, modellerini etkili şekilde geliştirmek için kapsamlı bir araç seti sunulacak.

Exercise 1: Model metrikleri ve ayarlamalar Exercise 2: Negatif KL ayrışmasını azaltma Exercise 3: Ödül modelini kontrol etme Exercise 4: Çeşitli geri bildirim kaynaklarını entegre etmek Exercise 5: Birden çok veri kaynağında çoğunluk oylaması Exercise 6: Güvenilmez veri kaynağını belirleme

Geçerli egzersiz

Exercise 7: RLHF modellerini değerlendirme Exercise 8: Eğrileri yorumlama Exercise 9: Metriklerle RLHF değerlendirme Exercise 10: RLHF yolculuğunu noktalayalım