1. 학습
  2. /
  3. 강의
  4. /
  5. Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

연습 문제

Inicjalizacja trenera PPO

Pracujesz w firmie obsługi klienta, która korzysta z chatbota do odpowiadania na pytania użytkowników. Chatbot udziela pomocnych odpowiedzi, jednak ostatnio pojawiły się opinie, że brakuje im głębi. Musisz dostroić model stojący za chatbotem – zacznij od utworzenia instancji trenera PPO.

Zbiór danych dataset_cs został już wczytany.

지침

100 XP
  • Zainicjalizuj konfigurację PPO z nazwą modelu "gpt2" i współczynnikiem uczenia równym 1.2e-5.
  • Wczytaj AutoModelForCausalLMWithValueHead – przyczynowy model językowy z głowicą wartości.
  • Utwórz PPOTrainer(), używając zdefiniowanego modelu, konfiguracji i tokenizera oraz wstępnie wczytanego zbioru danych.