결정론적 정책 정의하기

이 연습 문제에서는 동영상에서 보셨던 것과 같은 사용자 정의 환경 MyGridWorld를 사용합니다. 이 환경은 에이전트가 가능한 한 빨리 다이아몬드에 도달하는 것이 목표인 그리드 월드입니다. 아래 그림에 표시된 대로 에이전트의 행동을 안내하는 정책을 정의해 보세요.

Image showing the policy: states 0, 1, 6, 7 - action right. states 2, 3 - action down. states 4, 5 - action left.