cvičení

Výběr akce v algoritmu REINFORCE

Napiš funkci select_action pro algoritmus REINFORCE, kterou bude tvůj agent používat k výběru akce v každém kroku.

Zatímco v DQN vracel dopředný průchod sítě Q-hodnoty, v algoritmu REINFORCE vrací pravděpodobnosti akcí, ze kterých lze akci přímo vzorkovat.

V prostředí máš načtenou policy network a stav.

torch.distributions.Categorical byl importován jako Categorical.

100 XP