Multi-armed bandit에서 수렴 평가하기

Multi-armed bandit 문제에서 전략의 성능과 수렴을 평가하는 것은 효과성을 파악하는 데 매우 중요해요. 시간이 지남에 따라 각 팔이 얼마나 자주 선택되는지를 분석하면, 학습 과정과 최고의 팔을 식별하고 활용하는 전략의 능력을 추론할 수 있어요. 이 연습 문제에서는 반복(iteration)에 따라 각 팔의 선택 비율을 시각화하여 epsilon-greedy 전략의 수렴을 평가해 봅니다.

각 반복에서 어떤 팔을 당겼는지를 나타내는 selected_arms 배열은 미리 로드되어 있어요.