Práce s diskrétními rozděleními

Brzy budeš pracovat se stochastickými politikami – tedy politikami, které reprezentují chování agenta v daném stavu jako pravděpodobnostní rozdělení přes akce.

PyTorch umožňuje reprezentovat diskrétní rozdělení pomocí třídy torch.distributions.Categorical, se kterou si teď vyzkoušíš pracovat.

Uvidíš, že vstupní čísla nemusí nutně tvořit součet 1 jako klasické pravděpodobnosti – normalizace proběhne automaticky.