Bu bölüm, Yapay Zekânın daha etkili öğrenmesine yardımcı olmak için insan girdisini kullanan İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) temellerini tanıtır. RLHF’ye, geleneksel pekiştirmeli öğrenmeden nasıl ayrıldığını ve insan geri bildiriminin neden farklı alanlarda yapay zekâ performansını artırabildiğini anlayarak başla.

RLHF'ye Giriş

RLHF ile metin üretimi

RLHF için üretilen metni sınıflandırma

RL ve RLHF

Önceden eğitilmiş LLM'leri keşfetme

Bir metin veri kümesini tokenleştir

Yorum sınıflandırması için ince ayar (fine-tuning)

RLHF için verileri hazırlama

Tercih veri kümesini hazırlama

İstemleri çıkarma

Temel Kavramlar

Bu bölümde, insan geri bildirimi toplamak için sistemleri nasıl kuracağını keşfet. Eşli karşılaştırmalardan belirsizlik örneklemesine kadar yüksek kaliteli veri toplamanın en iyi uygulamalarını öğren ve veri toplamanı güçlendirecek stratejileri incele.

Yüksek kaliteli geri bildirim toplama yöntemleri

Seçenekler

Karşılaştırma

Derecelendirme

RLHF'de karşılaştırma ve derecelendirmeyi anlama

Bir spor salonu kampanyası için sloganları karşılaştırma

Geri bildirim kalitesini ve uygunluğunu ölçme

Düşük güven

Geri bildirim kümeleme için K-means

Aktif öğrenme

Aktif öğrenme hattı (pipeline) uygulama

Aktif öğrenme döngüsü

İnsan Geri Bildirimi Toplama

Bu bölümde, İnsan Geri Bildiriminden Pekiştirmeli Öğrenme eğitiminin özüne ineceksin. Bu; PPO ile ince ayarı keşfetmeyi, verimli eğitim tekniklerini ve metrik hedeflerinden olası sapmaları yönetmeyi içerir.

Ödül modellerine derin bakış

Ödülü başlatma

Ödül eğitmenini ayarlama

PPO ile eğitim

PPO eğitmenini başlat

PPO ile ince ayar

RLHF'te verimli ince ayar

8-bit Eğitime Hazırlık

LoRA ile eğit

 İnsan Geri Bildirimiyle Modelleri Ayarlama

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) kursunun bu son bölümünde model performansını değerlendirme ve iyileştirme için temel teknikleri keşfet: ince ayar metriklerinden çeşitli geri bildirim kaynaklarını dahil etmeye kadar, modellerini etkili şekilde geliştirmek için kapsamlı bir araç seti sunulacak.

Model metrikleri ve ayarlamalar

Negatif KL ayrışmasını azaltma

Ödül modelini kontrol etme

Çeşitli geri bildirim kaynaklarını entegre etmek

Birden çok veri kaynağında çoğunluk oylaması

Güvenilmez veri kaynağını belirleme

RLHF modellerini değerlendirme

Eğrileri yorumlama

Metriklerle RLHF değerlendirme

RLHF yolculuğunu noktalayalım

Model Değerlendirme

Bu kursta Generative AI’nin verimliliğini insan uzmanlığının kavrayışıyla birleştir. GenAI modellerinin insan değerlerini ve tercihlerini gerçekten yansıtmasını nasıl sağlayacağını öğrenirken LLM’lerle uygulamalı deneyim kazanacaksın. Ayrıca ödül modellerinin karmaşıklıklarında yol alacak ve yalnızca öğrenen değil, gerçek dünyadaki senaryolara uyum sağlayan yapay zekâ üretmek için LLM’lerin üzerine nasıl inşa edileceğini keşfedeceksin.

Deep Reinforcement Learning in Python

Gelişmiş LLM'lerle uygulamalı deneyim kazanırken GenAI modellerini insan değerlerine uygun hale getirin.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Gelişmiş LLM'lerle pratik deneyim kazanırken, GenAI modellerinin insan değerlerini gerçek anlamda yansıtmasını sağlamayı öğrenin.

Büyük Dil Modelleri Geliştirme

Pekiştirmeli Öğrenme Python'da

Aşağıdaki filmlerden hangisi daha iyi: "Interstellar" mı, "Oppenheimer" mı?

Her filme önemine göre 1'den 5'e kadar puan ver: "Titanic", "Gladiator", "Interstellar"

RLHF'de karşılaştırma ve derecelendirmeyi anlama

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Uygulamalı etkileşimli egzersiz