Expected SARSA 업데이트 규칙

이번 연습에서는 시간차(Temporal Difference) 기반의 Model-Free RL 알고리즘인 Expected SARSA 업데이트 규칙을 구현해 보겠습니다. Expected SARSA는 가능한 모든 행동에 대해 평균을 내어 현재 정책의 기대값을 추정하므로, SARSA에 비해 더 안정적인 업데이트 목표를 제공합니다. Expected SARSA에서 사용하는 수식은 아래에서 확인할 수 있습니다.

Image showing the mathematical formula of the expected SARSA update rule.