cvičení

Výběr akce v základním DQN

Funkce select_action() umožňuje agentovi vybrat v každém kroku akci s nejvyšší Q-hodnotou.

Funkce přijímá jako argumenty Q-síť a aktuální stav a vrací index akce s nejvyšší Q-hodnotou.

Q-síť je vytvořena jako instance q_network a náhodný stav byl načten do tvého prostředí pomocí state = torch.rand(8), aby sis měl/a s čím pracovat.

Pokyny

100 XP

Vypočítej Q-hodnoty odpovídající jednotlivým akcím v zadaném stavu.
Získej index akce s nejvyšší Q-hodnotou.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení