1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

연습 문제

결정론적 정책 정의하기

이 연습 문제에서는 동영상에서 보셨던 것과 같은 사용자 정의 환경 MyGridWorld를 사용합니다. 이 환경은 에이전트가 가능한 한 빨리 다이아몬드에 도달하는 것이 목표인 그리드 월드입니다. 아래 그림에 표시된 대로 에이전트의 행동을 안내하는 정책을 정의해 보세요.

Image showing the policy:  states 0, 1, 6, 7 - action right.  states 2, 3 - action down.  states 4, 5 - action left.

행동은 다음과 같이 표현됩니다: (0 → left, 1 → down, 2 → right, 3 → up).

gymnasium 라이브러리는 gym으로, 그리고 render() 함수도 함께 임포트되어 있습니다.

지침 1/2

undefined XP
    1
    2
  • 환경 ID로 MyGridWorld, render_mode로 'rgb_array'를 사용하여 환경 인스턴스 env를 생성하세요.
  • 그림에 나온 대로 policy를 Python 딕셔너리로 정의하세요.