優先度付き経験再生バッファ

この演習では、後で Prioritized Experience Replay を用いた DQN を実装する際に使うデータ構造 PrioritizedExperienceReplay クラスを導入します。

PrioritizedExperienceReplay は、これまで DQN エージェントの学習に使ってきた ExperienceReplay クラスを改良したものです。優先度付きの経験再生バッファでは、そこからサンプリングされる遷移が一様サンプリングよりも学習に有益になるようにされています。

まずは、.__init__(), .push(), .update_priorities(), .increase_beta(), .__len__() を実装してください。最後のメソッド .sample() は、次の演習で扱います。