Tercih veri kümesini hazırlama
Bu egzersizde, insan geri bildiriminin "chosen" ve "rejected" çıktıları şeklinde yer aldığı bir veri kümesiyle çalışacaksın. Görevin, "chosen" sütunundan istemleri (prompts) çıkarmak ve veriyi bir ödül modeli eğitimi için hazırlamak.
datasets içindeki load_dataset fonksiyonu önceden içe aktarıldı
Bu egzersiz, kursun bir parçasıdır
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
Egzersiz talimatları
- Hugging Face'ten
trl-internal-testing/hh-rlhf-helpful-base-trl-styleveri kümesini yükle. - Fonksiyona verilen girdide istemin 0. indekste yer aldığını varsayarak
'content'alanından istemi çıkaran bir fonksiyon yaz. - İstemi çıkaran fonksiyonu
'chosen'veri kümesi alt kümesine uygula.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Load the dataset
preference_data = ____
# Define a function to extract the prompt
def extract_prompt(text):
____
return prompt
# Apply the function to the dataset
preference_data_with_prompt = ____(
lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)
sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])