cvičení

Příprava preference datasetu

V tomto cvičení budeš pracovat s datasetem, který obsahuje lidskou zpětnou vazbu ve formě „zvolených" (chosen) a „odmítnutých" (rejected) výstupů. Tvým úkolem je extrahovat prompty ze sloupce „chosen" a připravit data pro trénování reward modelu.

Funkce load_dataset z knihovny datasets je již naimportována.

Pokyny

100 XP

Načti dataset trl-internal-testing/hh-rlhf-helpful-base-trl-style z Hugging Face.
Napiš funkci, která extrahuje prompt z pole 'content' – předpokládej, že prompt se nachází na indexu 0 vstupu funkce.
Aplikuj funkci pro extrakci promptu na část datasetu 'chosen'.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení