BaşlayınÜcretsiz Başlayın

Tercih veri kümesini hazırlama

Bu egzersizde, insan geri bildiriminin "chosen" ve "rejected" çıktıları şeklinde yer aldığı bir veri kümesiyle çalışacaksın. Görevin, "chosen" sütunundan istemleri (prompts) çıkarmak ve veriyi bir ödül modeli eğitimi için hazırlamak.

datasets içindeki load_dataset fonksiyonu önceden içe aktarıldı

Bu egzersiz

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Hugging Face'ten trl-internal-testing/hh-rlhf-helpful-base-trl-style veri kümesini yükle.
  • Fonksiyona verilen girdide istemin 0. indekste yer aldığını varsayarak 'content' alanından istemi çıkaran bir fonksiyon yaz.
  • İstemi çıkaran fonksiyonu 'chosen' veri kümesi alt kümesine uygula.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Load the dataset
preference_data = ____

# Define a function to extract the prompt
def extract_prompt(text):
    ____
    return prompt

# Apply the function to the dataset 
preference_data_with_prompt = ____(
    lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)

sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])
Kodu Düzenle ve Çalıştır