1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Tokenizace textového datasetu

Pracuješ na průzkumu trhu pro cestovní web a chceš využít existující dataset k doladění modelu, který ti pomůže klasifikovat hotelové recenze. Rozhodneš se použít knihovnu datasets.

Třída AutoTokenizer je předem naimportována z transformers a funkce load_dataset() je předem naimportována z datasets.

Pokyny

100 XP
  • Přidej do tokenizeru padding, aby bylo možné zpracovávat text v dávkách stejné velikosti.
  • Tokenizuj textová data pomocí předtrénovaného GPT tokenizeru a definované funkce.