1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

연습 문제

가치 반복(Value Iteration) 구현하기

가치 반복은 최적 정책을 찾기 위한 RL의 핵심 기법입니다. 각 상태의 가치 함수를 수렴할 때까지 반복적으로 개선하여, 그 결과로 최적 정책을 찾게 됩니다. 미리 초기화된 가치 함수 V와 policy가 제공되어 있어요. 루프를 돌면서 이들을 업데이트하여 가치 함수가 수렴하는지 확인하고, 정책이 어떻게 동작하는지도 살펴보세요.

get_max_action_and_value(state, V) 함수가 미리 로드되어 있습니다.

지침

100 XP
  • 각 상태에 대해 Q-값이 최대가 되는 행동(max_action)과 그에 대응하는 값(max_q_value)을 찾으세요.
  • max_action과 max_q_value에 따라 new_V 딕셔너리와 policy를 업데이트하세요.
  • 모든 상태에 대해 new_V와 V의 차이가 threshold보다 작은지 확인하여 수렴 여부를 검사하세요.