1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

연습 문제

SARSA 업데이트 규칙 구현하기

SARSA는 on-policy 알고리즘으로, 현재 취한 행동과 다음 상태에서 선택된 행동에 기반해 action-value 함수를 업데이트해요. 이 방법은 현재 상태-행동 쌍뿐만 아니라 그다음 쌍의 가치까지 학습하도록 도와주어, 미래의 행동을 고려하는 정책을 학습하게 합니다. 아래의 SARSA 업데이트 규칙을 참고하여, 이 규칙에 따라 Q-table을 업데이트하는 함수를 구현해 보세요.

NumPy 라이브러리는 np로 임포트되어 있어요.

Image showing the mathematical formula of the SARSA update rule.

지침

100 XP
  • 주어진 상태-행동 쌍에 대한 현재 Q-값을 가져오세요.
  • 다음 상태-행동 쌍의 Q-값을 찾으세요.
  • SARSA 공식을 사용해 현재 상태-행동 쌍의 Q-값을 업데이트하세요.
  • 에이전트가 상태 0에서 행동 0을 수행하고 보상 5를 받은 뒤 상태 1로 이동하여 행동 1을 수행했다고 할 때, Q-table Q를 업데이트하세요.