優先順位付き経験再生を用いたDQN

この演習では、DQNアルゴリズムを強化するために Prioritized Experience Replay（PER）を導入します。PER は、各ステップでネットワークを更新するために選ばれる遷移のバッチを最適化することを目的としています。

参考として、PrioritizedReplayBuffer に定義済みのメソッド名は次のとおりです。

push()（遷移をバッファに追加）
sample()（バッファから遷移のバッチをサンプリング）
increase_beta()（重要度サンプリングの影響を増加）
update_priorities()（サンプリング済みの優先度を更新）

describe_episode() 関数は、各エピソードの内容を説明するために再度使用します。

容量が 10000 の Prioritized Experience Replay バッファをインスタンス化します。
beta パラメータを更新して、時間の経過とともに重要度サンプリングの影響を強めます。
直近のTD誤差に基づいて、サンプリングした経験の優先度を更新します。