離散分布を扱う

まもなく確率的方策（stochastic policies）を扱います。これは、ある状態でのエージェントの振る舞いを、行動に対する確率分布として表す方策です。

PyTorch では、torch.distributions.Categorical クラスを使って離散分布を表現できます。ここではこれを実験してみます。

入力として使う数値は確率のように合計が 1 である必要はないことが分かります。自動的に正規化されます。