1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Ztrátová funkce základního DQN

Funkce select_action() je hotová a ke spuštění trénování agenta ti chybí už jen jeden krok: teď implementuješ funkci calculate_loss().

Funkce calculate_loss() vrací ztrátu sítě pro každý krok epizody.

Pro referenci je ztráta definována takto:

Následující ukázková data jsou v cvičení již načtena:

state = torch.rand(8)
next_state = torch.rand(8)
action = select_action(q_network, state)
reward = 1
gamma = .99
done = False

Pokyny

100 XP
  • Získej Q-hodnotu aktuálního stavu.
  • Získej Q-hodnotu následujícího stavu.
  • Vypočítej cílovou Q-hodnotu neboli TD-target.
  • Vypočítej ztrátovou funkci, tedy kvadratickou Bellmanovu chybu.