イプシロン・グリーディ

この演習では、減衰付きのイプシロン・グリーディを適用する select_action() 関数を実装します。

イプシロン・グリーディはエージェントに環境の探索を促し、学習の向上が期待できます。

イプシロン・グリーディのスケジュールは、任意の step に対するしきい値 \(\varepsilon\) を次式で定めます。 $$\varepsilon = end + (start-end) \cdot e^{-\frac{step}{decay}}$$

select_action() は、確率 \(\varepsilon\) でランダムな行動を、確率 \(1-\varepsilon\) で Q 値が最大の行動を返すべきです。

与えられた step の値に対するしきい値 epsilon を計算します。
0 から 1 の間の乱数を 1 つ生成します。
確率 epsilon でランダムな行動を返します。
確率 1-epsilon で Q 値が最大の行動を返します。