First-Visit Monte Carlo 구현하기

Monte Carlo 알고리즘의 목표는 최적 정책을 도출하기 위해 Q-table을 추정하는 것입니다. 이 연습 문제에서는 First-Visit Monte Carlo 방법을 구현해 행동 가치 함수 Q를 추정하고, 이전 연습 문제에서 보았던 커스텀 환경을 해결하기 위한 최적 정책을 계산해 보겠습니다. return을 계산할 때는 할인율을 1로 가정하세요.

Q-값, 누적 보상 합, 그리고 각 상태-행동 쌍의 방문 횟수를 저장하는 numpy 배열 Q, returns_sum, returns_count가 미리 초기화되어 로드되어 있어요.