epsilon-greedy 함수 정의하기

RL에서 epsilon-greedy 전략은 탐색과 활용의 균형을 맞추는 방법이에요. 이 방식은 확률 epsilon으로 무작위 행동을 선택하고, 확률 1-epsilon으로 현재 가장 좋은 행동을 선택해요. epsilon_greedy() 함수를 구현하는 것은 Q-learning과 SARSA 같은 알고리즘에 필수적이며, 환경을 탐색하면서도 알려진 보상을 활용하도록 하여 에이전트가 효과적으로 학습하도록 돕습니다. 이번 연습 문제의 목표는 이 함수를 구현하는 것이에요.

numpy 라이브러리는 np로 임포트되어 있어요.