1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Výběr akce v algoritmu REINFORCE

Napiš funkci select_action pro algoritmus REINFORCE, kterou bude tvůj agent používat k výběru akce v každém kroku.

Zatímco v DQN vracel dopředný průchod sítě Q-hodnoty, v algoritmu REINFORCE vrací pravděpodobnosti akcí, ze kterých lze akci přímo vzorkovat.

V prostředí máš načtenou policy network a stav.

torch.distributions.Categorical byl importován jako Categorical.

Pokyny

100 XP
  • Získej pravděpodobnosti akcí jako torch tensor.
  • Získej torch rozdělení (Distribution) odpovídající pravděpodobnostem akcí.
  • Vzorkuj akci z tohoto rozdělení.