SARSA 업데이트 규칙 구현하기

SARSA는 on-policy 알고리즘으로, 현재 취한 행동과 다음 상태에서 선택된 행동에 기반해 action-value 함수를 업데이트해요. 이 방법은 현재 상태-행동 쌍뿐만 아니라 그다음 쌍의 가치까지 학습하도록 도와주어, 미래의 행동을 고려하는 정책을 학습하게 합니다. 아래의 SARSA 업데이트 규칙을 참고하여, 이 규칙에 따라 Q-table을 업데이트하는 함수를 구현해 보세요.

NumPy 라이브러리는 np로 임포트되어 있어요.

Image showing the mathematical formula of the SARSA update rule.