1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Výběr akce v základním DQN

Funkce select_action() umožňuje agentovi vybrat v každém kroku akci s nejvyšší Q-hodnotou.

Funkce přijímá jako argumenty Q-síť a aktuální stav a vrací index akce s nejvyšší Q-hodnotou.

Q-síť je vytvořena jako instance q_network a náhodný stav byl načten do tvého prostředí pomocí state = torch.rand(8), aby sis měl/a s čím pracovat.

Pokyny

100 XP
  • Vypočítej Q-hodnoty odpovídající jednotlivým akcím v zadaném stavu.
  • Získej index akce s nejvyšší Q-hodnotou.