cvičení

Inicializace PPO trenéra

Pracuješ pro společnost zákaznické podpory, která využívá chatbota ke zpracování dotazů zákazníků. Chatbot poskytuje užitečné odpovědi, ale nedávno jsi dostal/a zpětnou vazbu, že jim chybí hloubka. Potřebuješ doladit model, který za chatbotem stojí, a začínáš vytvořením instance PPO trenéra.

dataset_cs je již načtený.

Pokyny

100 XP

Inicializuj PPO konfiguraci s názvem modelu "gpt2" a learning rate 1.2e-5.
Načti AutoModelForCausalLMWithValueHead – kauzální jazykový model s value head.
Vytvoř PPOTrainer() pomocí modelu, konfigurace a tokenizéru, které jsi právě definoval/a, a s předem načteným datasetem.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení