멀티 암드 밴딧 만들기

멀티 암드 밴딧 문제는 Reinforcement Learning에서 자주 사용하는 고전적인 예시로, 에이전트가 각 행동(또는 "arm")의 기대 보상을 모르는 상태에서 여러 행동 중 하나를 선택해야 하는 상황을 설명해요. 시간이 지나면서 에이전트는 각 선택지를 탐색하여 어떤 arm이 가장 높은 보상을 주는지 학습하게 됩니다. 이 연습 문제에서는 멀티 암드 밴딧 문제를 시뮬레이션하기 위한 기본 구조를 설정해 볼 거예요.

numpy 라이브러리는 np로 임포트되어 있어요.