1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

演習

離散分布を扱う

まもなく確率的方策(stochastic policies)を扱います。これは、ある状態でのエージェントの振る舞いを、行動に対する確率分布として表す方策です。

PyTorch では、torch.distributions.Categorical クラスを使って離散分布を表現できます。ここではこれを実験してみます。

入力として使う数値は確率のように合計が 1 である必要はないことが分かります。自動的に正規化されます。

指示

100 XP
  • カテゴリ分布(categorical probability distribution)をインスタンス化します。
  • その分布からサンプルを1つ取得します。
  • 確率として機能する、合計が 1 になる正の数を 3 つ指定します。
  • 正の数を 5 つ指定します。Categorical はそれらを自動的に正規化して確率にします。