Tercih veri kümesini hazırlama
Bu egzersizde, insan geri bildiriminin "chosen" ve "rejected" çıktıları şeklinde yer aldığı bir veri kümesiyle çalışacaksın. Görevin, "chosen" sütunundan istemleri (prompts) çıkarmak ve veriyi bir ödül modeli eğitimi için hazırlamak.
datasets içindeki load_dataset fonksiyonu önceden içe aktarıldı
Bu egzersiz
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
kursunun bir parçasıdırEgzersiz talimatları
- Hugging Face'ten
trl-internal-testing/hh-rlhf-helpful-base-trl-styleveri kümesini yükle. - Fonksiyona verilen girdide istemin 0. indekste yer aldığını varsayarak
'content'alanından istemi çıkaran bir fonksiyon yaz. - İstemi çıkaran fonksiyonu
'chosen'veri kümesi alt kümesine uygula.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load the dataset
preference_data = ____
# Define a function to extract the prompt
def extract_prompt(text):
____
return prompt
# Apply the function to the dataset
preference_data_with_prompt = ____(
lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)
sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])