Q-값 계산하기

목표는 아래 정책을 따를 때, 커스텀 MyGridWorld 환경의 각 상태-행동 쌍에 대한 행동가치(Q-값)를 계산하는 것이에요. RL에서 Q-값은 특정 상태에서 특정 행동을 수행하고 이후 정책을 따른다고 가정했을 때의 기대 효용을 나타내므로 매우 중요해요.

이 환경은 env로 불러와져 있으며, compute_state_value() 함수와 함께 필요한 변수들(terminal_state, num_states, num_actions, policy, gamma)도 제공되어 있어요.

연습 문제