가치 반복(Value Iteration) 구현하기

가치 반복은 최적 정책을 찾기 위한 RL의 핵심 기법입니다. 각 상태의 가치 함수를 수렴할 때까지 반복적으로 개선하여, 그 결과로 최적 정책을 찾게 됩니다. 미리 초기화된 가치 함수 V와 policy가 제공되어 있어요. 루프를 돌면서 이들을 업데이트하여 가치 함수가 수렴하는지 확인하고, 정책이 어떻게 동작하는지도 살펴보세요.

get_max_action_and_value(state, V) 함수가 미리 로드되어 있습니다.