PERバッファからのサンプリング

エージェントの学習に Prioritized Experience Buffer クラスを使う前に、.sample() メソッドを実装する必要があります。このメソッドは、取得したいサンプルのサイズを引数に取り、サンプルされた遷移を tensor として、メモリバッファ内でのインデックスおよびそれぞれの重要度重みとともに返します。

容量 10 のバッファがあらかじめ環境に読み込まれており、そこからサンプリングできます。