1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

演習

Q-값 계산하기

목표는 아래 정책을 따를 때, 커스텀 MyGridWorld 환경의 각 상태-행동 쌍에 대한 행동가치(Q-값)를 계산하는 것이에요. RL에서 Q-값은 특정 상태에서 특정 행동을 수행하고 이후 정책을 따른다고 가정했을 때의 기대 효용을 나타내므로 매우 중요해요.

exercise_policy.png

이 환경은 env로 불러와져 있으며, compute_state_value() 함수와 함께 필요한 변수들(terminal_state, num_states, num_actions, policy, gamma)도 제공되어 있어요.

指示

100 XP
  • 주어진 state와 action에 대한 행동가치를 계산하도록 compute_q_value() 함수를 완성하세요.
  • 각 키가 상태-행동 쌍을, 값이 해당 쌍의 Q-값을 나타내는 딕셔너리 Q를 생성하세요.