1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

연습 문제

전이 확률과 보상

Cliff Walking 환경에는 48개의 상태가 있으며, 왼쪽 위 모서리(0)에서 오른쪽 아래 모서리(47)까지 줄 단위로 0부터 47까지 번호가 매겨져 있어요. 이 설정에서 전이 확률과 보상의 구조를 살펴보는 것이 목표예요. 특히 이 환경에서는 목표 지점에 도달했을 때의 보상을 포함해 모든 보상이 음수입니다. 이런 설계는 각 단계에 패널티가 부과되므로, 이동 횟수를 최소화하는 것의 중요성을 강조해요. 따라서 효율성이 효과적인 학습 알고리즘을 설계하는 핵심이 됩니다.

gymnasium 라이브러리는 gym으로, 환경은 env로 가져왔습니다. 또한 이전 연습 문제에서 사용한 num_states와 num_actions도 불러왔어요.

Image showing the cliff walking environment.

지침 1/2

undefined XP
    1
    2
  • 목표 상태의 바로 위에 있는 상태를 선택하세요.
  • 선택한 상태에 대해 각 행동마다 전이 튜플의 목록을 추출해 transitions에 저장하세요.
  • 각 transition에서 probability, next_state, reward, done 플래그를 추출하세요.