1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

Exercise

PERバッファからのサンプリング

エージェントの学習に Prioritized Experience Buffer クラスを使う前に、.sample() メソッドを実装する必要があります。このメソッドは、取得したいサンプルのサイズを引数に取り、サンプルされた遷移を tensor として、メモリバッファ内でのインデックスおよびそれぞれの重要度重みとともに返します。

容量 10 のバッファがあらかじめ環境に読み込まれており、そこからサンプリングできます。

Instrukcje

100 XP
  • 各遷移に対応するサンプリング確率を計算します。
  • サンプルに含める遷移に対応するインデックスを抽出します。np.random.choice(a, s, p=p) は、確率配列 p に基づき、配列 a からサイズ s の復元抽出を行います。
  • 各遷移に対応する重要度重みを計算します。