Ztrátová funkce základního DQN

Funkce select_action() je hotová a ke spuštění trénování agenta ti chybí už jen jeden krok: teď implementuješ funkci calculate_loss().

Funkce calculate_loss() vrací ztrátu sítě pro každý krok epizody.

Pro referenci je ztráta definována takto:

Následující ukázková data jsou v cvičení již načtena:

state = torch.rand(8)
next_state = torch.rand(8)
action = select_action(q_network, state)
reward = 1
gamma = .99
done = False

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení