epsilon-greedy 関数の定義

RL では、epsilon-greedy 戦略は探索と活用のバランスを取る方法です。この手法は、確率 epsilon でランダムな行動を、確率 1 - epsilon で既知の最良の行動を選びます。epsilon_greedy() 関数を実装することは、Q-learning や SARSA のようなアルゴリズムにとって重要で、環境の探索と既知の報酬の活用の両方を保証してエージェントの学習を促進します。本演習ではこの実装を目標とします。

numpy ライブラリは np としてインポート済みです。