전이 확률과 보상

Cliff Walking 환경에는 48개의 상태가 있으며, 왼쪽 위 모서리(0)에서 오른쪽 아래 모서리(47)까지 줄 단위로 0부터 47까지 번호가 매겨져 있어요. 이 설정에서 전이 확률과 보상의 구조를 살펴보는 것이 목표예요. 특히 이 환경에서는 목표 지점에 도달했을 때의 보상을 포함해 모든 보상이 음수입니다. 이런 설계는 각 단계에 패널티가 부과되므로, 이동 횟수를 최소화하는 것의 중요성을 강조해요. 따라서 효율성이 효과적인 학습 알고리즘을 설계하는 핵심이 됩니다.

gymnasium 라이브러리는 gym으로, 환경은 env로 가져왔습니다. 또한 이전 연습 문제에서 사용한 num_states와 num_actions도 불러왔어요.

Image showing the cliff walking environment.